Cerebras forbereder seg på epoken med 120 billioner-parameter nevrale nettverk

0
155

 Tiernan Ray

Av Tiernan Ray | 24. august 2021 – 20:38 GMT (21:38 BST) | Tema: Kunstig intelligens

 hc2021-cerebras-embargoed-8-24-slide-10.jpg

Cerebras la til sin tidligere annuserte CS-2 AI-datamaskin med et nytt bryterprodukt, SwarmX, som gjør ruting, men også beregninger, og en minnemaskin som inneholder 2,4 petabyte DRAM og NAND, kalt MemoryX.

Cerebras Systems

Kunstig intelligens i sin dype læringsform produserer nevrale nettverk som vil ha billioner og billioner av nevrale vekter eller parametere, og den økende skalaen gir spesielle problemer for maskinvaren og programvaren som brukes til å utvikle slike nevrale nettverk.

“På to år ble modellene tusen ganger større og de krevde tusen ganger mer beregning,” sier Andrew Feldman, medstifter og administrerende direktør i AI-systemprodusenten Cerebras Systems, og oppsummerer den siste historien om nevrale nett i et intervju med ZDNet via Zoom.

“Det er en tøff bane,” sier Feldman.

Feldmans selskap avslører denne uken nye datamaskiner på den årlige Hot Chips -datamaskinbrikkekonferansen for avansert databehandling. Konferansen arrangeres praktisk talt i år. Cerebras ga ut en pressemelding som kunngjorde de nye datamaskinene.

Cerebras, som konkurrerer med AI -lederen, Nvidia, og med andre AI -oppstart, for eksempel Graphcore og SambaNova Systems, har som mål å lede i ytelse når de trener de stadig større nettverkene. Trening er fasen der et neuralt nettprogram utvikles ved å utsette det for store mengder data og justere de nevrale nettovektene til de gir høyest mulig nøyaktighet.

Også: 'Vi kan løse dette problemet på en tid som ikke mange GPUer eller CPUer kan oppnå,' sier oppstart Cerebras til superdatamøtet

Det er ingen hemmelighet at nevrale nettverk har vokst jevnt og trutt i størrelse. I løpet av det siste året, det som hadde vært verdens største nevrale nett, målt ved nevrale vekter, ble OpenAIs GPT-3 naturspråkbehandlingsprogram, med 175 milliarder vekter, overskygget av Googles 1.6-billion-parameter-modell, Switch Transformer.

Slike enorme modeller støter på problemer fordi de strekker seg utover grensene for et enkelt datasystem. Minnet til enkelt GPU, i størrelsesorden 16 gigabyte, er overveldet av potensielt hundrevis av terabyte minne som kreves for en modell som GPT-3. Derfor blir gruppering av systemer avgjørende.

Og hvordan klyngen blir det avgjørende problemet, fordi hver maskin må holdes opptatt, ellers faller bruken. For eksempel opprettet Nvidia, Stanford og Microsoft i år en versjon av GPT-3 med én billion parametere, og de strakte den over 3072 GPUer. Men utnyttelsen, det vil si antall operasjoner per sekund, var bare 52% av toppoperasjonene som maskinene teoretisk sett burde være i stand til.

Derfor er problemet Feldman og Cerebras skal løse, å håndtere større og større nettverk på en måte som vil få bedre utnyttelse av hvert dataelement, og derved føre til bedre ytelse, og i forlengelsen, bedre energibruk.

De nye datamaskinene inneholder tre deler som fungerer sammen. Den ene er en oppdatering av selskapets datamaskin som inneholder Wafer-Scale Engine eller WSE, chip, den største brikken som noensinne er laget. Systemet kalles CS-2. Både WSE2 og CS-2 ble introdusert i april.

Også: Cerebras fortsetter “absolutt dominans” av high-end-beregning, står det, med verdens største chip to-dot-oh

 wse2-natalia.jpg

Cerebras Systems produktsjef for AI Natalia Vassilieva holder selskapets WSE-2, en enkelt brikke som måler nesten hele overflaten på en tolv-tommers halvlederskive. Brikken ble først avduket i april, og er hjertet i den nye CS-2-maskinen, selskapets andre versjon av sin dedikerte AI-datamaskin.

Cerebras Systems

De nye elementene denne uken er en rackmontert boks som heter MemoryX, som inneholder 2,4 petabyte kombinert med DRAM og NAND flashminne, for å lagre alle vektene på nevralnettet. En tredje boks er en såkalt stoffmaskin som kobler CS-2 til MemoryX, kalt SwarmX. Stoffet kan koble så mange som 192 CS-2-maskiner til MemoryX for å bygge en klynge som fungerer sammen på et enkelt stort neuralt nett.

Parallell behandling på store problemer kommer vanligvis i to typer, parallell data eller modell parallell.

Hittil har Cerebras utnyttet modellparallellisme, der de neurale nettverkslagene er fordelt over forskjellige deler av den massive brikken, slik at lag og vekter løper parallelt. Cerebras -programvaren bestemmer automatisk hvordan lag skal fordeles på områder av brikken, og noen lag kan få mer brikkeareal enn andre.

Nevrale vekter eller parametere er matriser, vanligvis representert med fire byte per vekt, så vektlagringen er i utgangspunktet et multiplum av fire ganger uansett totalt antall vekter. For GPT-3, som har 175 milliarder parametere, vil det totale arealet av hele nevrale nettverk være 700 gigabyte.

En enkelt CS-1 kan inneholde alle parametrene til et lite eller mellomstort nettverk eller hele et gitt lag av en stor modell, for eksempel GPT-3, uten å måtte bla ut til eksternt minne på grunn av den store på-brikken SRAM på 18 gigabyte.

“Det største laget i GPT-3 er omtrent 12 000 x 48 000 elementer,” sa Feldman og snakket om dimensjonene til en enkelt vektmatrise. “Det passer lett på en enkelt WSE-2.”

I den nye WSE2-brikken, som støter opp SRAM-minnet til 40 gigabyte, kan en enkelt CS-2-maskin inneholde alle parametrene som vil bli brukt for et gitt lag av et 120 billioner parameter neuralt nett, sier Cerebras. “På hot chips viser vi matrisemultiplikasjoner på 48.000 x 48.000, dobbelt så store som GPT-3,” bemerker han.

Når den brukes i kombinasjon med MemoryX, i streaming-tilnærmingen, kan enkelt-CS-2 behandle alle modellvektene når de blir strømmet til maskinen ett lag om gangen.

Selskapet liker å kalle det “hjerneskala-databehandling” analogt med de 100 billioner synapser i menneskehjernen.

Det 120 trillion-parameter nevrale nettverket i dette tilfellet er et syntetisk nevrale nett utviklet internt av Cerebras for testformål, ikke et publisert nevrale nett.

Selv om CS-2 kan inneholde alle disse lagparametrene i en maskin, tilbyr Cerebras nå å bruke MemoryX for å oppnå dataparallellisme. Dataparallellisme er det motsatte av modellparallellisme, i den forstand at hver maskin har det samme settet med vekter, men en annen del av dataene å jobbe med.

For å oppnå dataparallellisme beholder Cerebras alle vektene i MemoryX og sender deretter selektivt disse vektene til CS-2-ene, der bare den enkelte delen av data er lagret.

Hver CS-2, når den mottar strømningsvektene, bruker disse vektene på inndataene, og sender deretter resultatet gjennom aktiveringsfunksjonen, et slags filter som også er lagret på brikken, som kontrollerer den veide inngangen for å se om en terskel er nådd.

Sluttresultatet av alt som er gradienten, en liten justering av vektene, som deretter sendes tilbake til MemoryX -boksen der den brukes til å oppdatere hovedlisten over vekter. SwarmX gjør all frem og tilbake-ruting mellom MemoryX og CS-2, men den gjør også noe mer.

“SwarmX gjør både kommunikasjon og beregning,” forklarte Feldman. “SwarmX -stoffet kombinerer gradientene, kalt reduksjon, noe som betyr at det gjør en operasjon som et gjennomsnitt.”

Og resultatet, sier Feldman, er langt høyere utnyttelse av CS-2 sammenlignet med konkurransen, selv på dagens produksjonsnevrale nett som GPT-3.

“Andres utnyttelse er på 10% eller 20%, men vi ser utnyttelse mellom 70% og 80% på de største nettverkene – det er uhørt,” sa Feldman. Tillegget av systemer tilbyr det han kalte “lineær ytelsesskalering”, noe som betyr at hvis seksten systemer legges til, blir hastigheten for å trene et nevralnett seksten ganger raskere.

Som et resultat, “I dag erstatter hver CS2 hundrevis av GPUer, og vi kan nå erstatte tusenvis av GPUer” med gruppert tilnærming, sa han.

 hc2021-cerebras-embargoed-8 -24-slide-23b.jpg

Cerebras hevder at gruppert maskiner produserer lineær skalering, noe som betyr at for hvert antall maskiner som legges til, øker hastigheten for å trene et nettverk med et tilsvarende multiplum.

Cerebras -systemer

Parallelisme fører til en ekstra fordel, sier Cerebras, og det er det som kalles sparsomhet.

Fra begynnelsen har Cerebras hevdet at Nvidia -GPUer er grovt ineffektive på grunn av mangel på minne. GPU -en må gå ut til hovedminnet, DRAM, som er dyrt, så den henter data i samlinger som kalles batcher. Men det betyr at GPU-en kan operere på data som er null-verdsatt, noe som er sløsing. Og det betyr også at vektene ikke oppdateres så ofte mens de venter på at hver batch skal behandles.

WSE, fordi den har den enorme mengden on-chip SRAM, er i stand til å trekke individuelle dataprøver, en batch med en, som den kalles, og operere mange slike individuelle prøver parallelt over chip. Og med hver enkelt prøve er det mulig igjen, med raskt minne, å arbeide med bare visse vekter og oppdatere dem selektivt og ofte.

Selskapet argumenterer – i formell forskning og i et blogginnlegg av produktsjef for AI Natalia Vassilieva – at sparsomhet gir alle slags fordeler. Det gir mer effektiv minnebruk, og gir mulighet for dynamisk parallellisering, og det betyr at tilbakepropagering, en baklengs passering gjennom nevrale vekter, kan komprimeres til en effektiv rørledning som ytterligere parallelliserer ting og fremskynder treningen. Det er en ide som ser ut til å ha en økende interesse for feltet generelt.

Da det var på tide å flytte til et gruppert system, kom Cerebras med en sparsom tilnærming igjen. Bare noen vekter trenger å strømme til hver CS-2 fra MemoryX, og bare noen gradienter trenger å sendes tilbake til MemoryX.

Med andre ord, Cerebras hevder at systemområdets nettverk består av datamaskin, switch og minnelager, oppfører seg som en stor versjon av den sparsomme beregningen som skjer på en enkelt WSE-brikke.

Kombinert med streaming-tilnærmingen har sparsiteten i CS-2, sammen med MemoryX og SwarmX, en fleksibel, dynamisk komponent som selskapet hevder ikke kan likestilles med andre maskiner.

“Hvert lag kan ha en annen sparsom maske,” sa Feldman, “at vi kan gi forskjellig sparsomhet per epoke, og over treningsløpet kan vi endre sparsiteten, inkludert sparsomhet som kan dra nytte av det som er lært under treningen, kalt dynamisk sparsitet – ingen andre kan gjøre det.

Å legge sparsomhet til dataparallellisme, sier Feldman, bringer en størrelsesorden hurtigere i tiden for å trene store nettverk.

 hc2021-cerebras -embargoed-8-24-slide-23.jpg

Cerebras går inn for tung og fleksibel bruk av teknikken kjent som sparsity for å gi ekstra ytelsesfordeler.

Cerebras Systems

Selvfølgelig er kunsten å selge mange flere CS-2-maskiner, sammen med de nye enhetene , vil avhenge av om markedet er klart for flere trillioner eller flere titalls trillioner vekt nevrale nettverk. CS-2 og de andre komponentene forventes å sendes i 4. kvartal i år, så et par måneder fra nå.

Eksisterende kunder virker interesserte. Argonne National Laboratories, et av ni gigantiske superdatasentre i det amerikanske energidepartementet, har siden begynnelsen vært bruker av CS-1-systemet. Selv om laboratoriet ennå ikke jobber med CS-2 eller de andre komponentene, er forskerne entusiastiske.

“De siste årene har vist oss at for NLP [naturlig språkbehandling] -modeller, innsikt skaleres direkte med parametere – jo flere parametere, jo bedre resultater,” sa Rick Stevens, som er assosiert direktør i Argonne, i en utarbeidet uttalelse.

Også: 'Vi gjør om noen måneder det som normalt vil ta en årlig utvikling av legemiddelutvikling': DoEs Argonne Labs kjemper mot COVID-19 med AI

På spørsmål om tiden er riktig for slike hestekrefter, observerte Feldman: “Ingen legger matse på hyllene i januar,” med henvisning til det tradisjonelle usyrede brødet som bare lager akkurat når det trengs, like før påskeferien på våren.

Tiden for massive klynger av AI -maskiner har kommet, sa Feldman.

“Dette er ikke matzah i januar,” sa han.

må lese

 Etikk for AI: Fordeler og risiko ved kunstig intelligens

Etikk for AI: Fordeler og risiko ved kunstig intelligens

Den økende omfanget av AI øker innsatsen for store etiske spørsmål .

Les mer

Relaterte emner:

Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software Tiernan Ray

Av Tiernan Ray | 24. august 2021 – 20:38 GMT (21:38 BST) | Tema: Kunstig intelligens