< p>Kappløpet etter stadig større generative kunstig intelligens-modeller fortsetter å gi næring til chipindustrien. Onsdag avduket Cerebras Systems, en av Nvidias mest fremtredende konkurrenter, «Wafer Scale Engine 3," tredje generasjon av AI-brikken og verdens største halvleder.
Cerebras slapp WSE-2 i april 2021. Dens etterfølger, WSE-3, er designet for å trene AI-modeller, noe som betyr å avgrense nevrale vekter, eller parametere, for å optimalisere funksjonaliteten før de settes i produksjon.
“Det er dobbelt så mye ytelse, samme strømforbruk, samme pris, så dette ville være et ekte Moores lov-trinn, og det har vi ikke sett på lenge i vår bransje”," Cerebras medgründer og administrerende direktør Andrew Feldman sa i en pressebriefing for brikken, og refererte til den flere tiår gamle regelen om at brikkekretser dobles omtrent hver 18. måned.
WSE-3 dobler rate av instruksjoner utført, fra 62,5 petaFLOPs til 125 petaFLOPs. Én petaFLOP refererer til 1.000.000.000.000.000 (1 kvadrillion) flytepunktoperasjoner per sekund.
Størrelsen på nesten en hel 12-tommers wafer, som forgjengeren, har WSE-3 krympet transistorene fra 7 nanometer — syv milliarddeler av en meter — til 5 nanometer, noe som øker transistortallet fra 2,6 billioner transistorer i WSE-2 til 4 billioner. TSMC, verdens største kontraktsbrikkeprodusent, produserer WSE-3.
Også: Cerebras fortsetter 'absolutt dominans' av avansert databehandling, står det, med verdens største chip to-dot-oh
Cerebras har beholdt det samme forholdet mellom logiske transistorer og minnekretser ved bare å øke minneinnholdet i SRAM-en på brikken, fra 40 GB til 44 GB, og øke antallet datakjerner litt fra 850 000 til 900 000.
"Vi tror vi har den rette balansen nå mellom databehandling og minne," Sa Feldman i orienteringen, som fant sted i hovedkvarteret til Colovore, oppstartens nettbaserte partner, i Santa Clara, California.
Som med de to foregående brikkegenerasjonene, sammenlignet Feldman WSE-3s enorme størrelse med gjeldende standard fra Nvidia, i dette tilfellet H100 GPU, som han kalte “denne dårlige, triste delen her”; i et lysbildebilde.
"Den er 57 ganger større," Sa Feldman og sammenlignet WSE-3 med Nvidias H100. “Den har 52 ganger flere kjerner. Den har 800 ganger mer minne på brikken. Den har 7000 ganger mer minnebåndbredde og mer enn 3700 ganger mer stoffbåndbredde. Dette er grunnlaget for ytelse."
Cerebras brukte de ekstra transistorene for å gjøre hver datamaskinkjerne større, og forbedret visse funksjoner, for eksempel å doble “SIMD”; funksjonen, multiprosesseringsfunksjonen som påvirker hvor mange datapunkter som kan behandles parallelt for hver klokkesyklus.
Brikken kommer pakket i en ny versjon av chassiset og strømforsyningen, CS-3, som nå kan grupperes til 2048 maskiner, 10 ganger så mange som før. Disse kombinerte maskinene kan utføre 256 exaFLOPS, tusen petaFLOPS eller en kvart zetaFLOP.
Også: AI-pioneren Cerebras har 'et monsterår' i hybrid AI-databehandling
Feldman sa at dens CS-3-datamaskin med WSE-3 kan håndtere en teoretisk stor språkmodell på 24 billioner parametere, noe som vil være en størrelsesorden mer enn de beste generative AI-verktøyene som OpenAIs GPT-4 , som ryktes å ha 1 billion parametere. “Hele 24 billioner parametere kan kjøres på en enkelt maskin,” Feldman sa.
For å være tydelig, gjør Cerebras denne sammenligningen ved å bruke en syntetisk storspråklig modell som faktisk ikke er trent. Det er bare en demonstrasjon av WSE-3s beregningsevne.
Cerebras-maskinen er enklere å program enn en GPU, hevdet Feldman. For å trene parameteren GPT-3 på 175 milliarder, vil en GPU kreve 20 507 linjer med kombinert Python, C/C++, CUDA og annen kode, mot bare 565 linjer med kode for WSE-3.
< p>Også: Cerebras og Abu Dhabis M42 laget en LLM dedikert til å svare på medisinske spørsmål
For rå ytelse sammenlignet Feldman treningstider etter klyngestørrelse. Feldman sa at en klynge på 2048 CS-3-er kunne trene Metas 70 milliarder parameter Llama 2 store språkmodell 30 ganger raskere enn Metas AI-treningsklynge: én dag versus 30 dager.
" Når du jobber med så store klynger, kan du gi alle bedrifter den samme datamaskinen som hyperskalerne bruker for seg selv," Feldman sa, “og ikke bare kan du bringe det de gjør, men du kan bringe det radikalt raskere.”
Feldman fremhevet kunder for maskinene, inkludert G42, et fem år gammelt investeringsselskap basert i Abu Dhabi, De forente arabiske emirater.
Cerebras jobber med en klynge med 64 CS-3-maskiner for G42 ved et anlegg i Dallas, Texas, kalt “Condor Galaxy 3”," den neste delen av et ni-delt prosjekt som forventes å nå titalls exaFLOPS innen utgangen av 2024.
I likhet med Nvidia har Cerebras mer etterspørsel enn det kan fylle for øyeblikket, sa Feldman. Oppstarten har en “betraktelig ordrereserve for CS-3 på tvers av bedrifts-, regjerings- og internasjonale skyer.”
Også: Making GenAI mer effektiv med en ny type brikke
Feldman avduket også et samarbeid med brikkegiganten Qualcomm for å bruke sistnevntes AI 100-prosessor for den andre delen av generativ AI, slutningsprosessen som består av å lage spådommer om live trafikk. Feldman bemerket at kostnadene for å kjøre generative AI-modeller i produksjon skalaer med parametertellingen, påpekte Feldman at å kjøre ChatGPT kunne koste 1 billion dollar årlig hvis hver person på planeten sendte inn forespørsler til den.
Partnerskapet bruker fire teknikker for å redusere kostnadene ved slutning. Ved å bruke det som kalles sparsitet, som ignorerer nullverdier, vil Cerebras' programvare eliminerer så mye som 80 % av unødvendige beregninger, sa Feldman. En annen teknikk, spekulativ dekoding, gjør spådommene ved å bruke en mindre versjon av en stor språkmodell, og lar deretter en større versjon sjekke svarene. Feldman forklarte at det er fordi det koster mindre energi å kontrollere produksjonen til en modell enn å produsere produksjonen i utgangspunktet.
En tredje teknikk konverterer utdataene fra modellen til MX6, en kompilert versjon som bare trenger halvparten av minnet den normalt ville gjort på Qualcomm AI 100-akseleratoren. Til slutt bruker WSE-3s programvare nettverksarkitektursøk for å velge et delsett av parametere som skal kompileres og kjøres på AI 100, som igjen kan redusere databehandling og minnebruk.
De fire tilnærmingene øker antallet "tokens" behandlet på Qualcomm-brikken per dollar brukt i en størrelsesorden, sa Feldman, der et symbol kan være en del av et ord i en frase eller et stykke datakode for en utviklers “co-pilot”. I slutning, “ytelse er lik kostnad”," Feldman bemerket.
"Vi reduserer radikalt hvor mye tid du må bruke på å tenke på hvordan du går fra treningsparameterne til produksjonsslutningen ved å samarbeide med Qualcomm og sikre en sømløs arbeidsflyt," sa Feldman.
Inferensmarkedet forventes generelt å bli et større fokus for våpenkappløpet i AI ettersom slutninger beveger seg fra datasentre ut til mer “edge”; enheter, inkludert bedriftsservere og til og med energibegrensede enheter som mobile enheter.
"Jeg tror at mer og mer, den enkle slutningen vil gå til kanten og Qualcomm har en reell fordel der," sa Feldman.