Cerebras forbereder sig på en æra med 120 billioner-parameter neurale netværk

0
108

 Tiernan Ray

Af Tiernan Ray | 24. august 2021 – 20:38 GMT (21:38 BST) | Emne: Kunstig intelligens

 hc2021-cerebras-embargoed-8-24-slide-10.jpg

Cerebras føjede til sin tidligere annoucerede CS-2 AI-computer med et nyt switch-produkt, SwarmX, der foretager routing, men også beregninger, og en hukommelsescomputer indeholdende 2,4 petabyte DRAM og NAND, kaldet MemoryX.

Cerebras Systems

Kunstig intelligens i sin dybe læringsform producerer neurale netværk, der vil have billioner og billioner af neurale vægte eller parametre, og den stigende skala giver særlige problemer for hardware og software, der bruges til at udvikle sådanne neurale netværk.

“På to år blev modellerne tusind gange større, og de krævede tusind gange mere beregning,” siger Andrew Feldman, medstifter og administrerende direktør for AI-systemproducenten Cerebras Systems og opsummerer den nylige historie om neurale net i et interview med ZDNet via Zoom.

“Det er en hård bane,” siger Feldman.

Feldmans firma afslører i denne uge nye computere på den årlige Hot Chips computerchip -konference for avanceret computing. Konferencen afholdes stort set i år. Cerebras udsendte en pressemeddelelse, der annoncerede de nye computere.

Cerebras, der konkurrerer med AI -lederen, Nvidia og med andre AI -startups, såsom Graphcore og SambaNova Systems, har til formål at føre i ydeevne, når de træner de stadig større netværk. Træning er den fase, hvor et neuralt netprogram udvikles ved at udsætte det for store mængder data og indstille de neurale nettovægte, indtil de producerer den højest mulige nøjagtighed.

Også: 'Vi kan løse dette problem på en tid, som ingen antal GPU'er eller CPU'er kan opnå,' siger opstart Cerebras til supercomputerkonference

Det er ingen hemmelighed, at neurale netværk har vokset støt i størrelse. I det forløbne år blev det, der havde været verdens største neurale net målt ved neurale vægte, OpenAIs GPT-3 naturligt sprogbehandlingsprogram med 175 milliarder vægte, overskygget af Googles model på 1,6 billioner parametre, Switch Transformer.

Sådanne enorme modeller støder på problemer, fordi de strækker sig ud over grænserne for et enkelt computersystem. Hukommelsen for enkelt GPU, i størrelsesordenen 16 gigabyte, overvældes af potentielt hundredvis af terabyte hukommelse, der kræves til en model som GPT-3. Derfor bliver klynger af systemer afgørende.

Og hvordan man klynge bliver det afgørende spørgsmål, fordi hver maskine skal holdes optaget, ellers falder udnyttelsen. For eksempel oprettede Nvidia, Stanford og Microsoft i år en version af GPT-3 med en billion parametre, og de strakte den over 3.072 GPU'er. Men udnyttelsen, det vil sige antallet af operationer pr. Sekund, var kun 52% af de topoperationer, som maskinerne teoretisk set burde være i stand til.

Derfor er problemet, Feldman og Cerebras er ved at løse, at håndtere større og større netværk på en måde, der vil få bedre udnyttelse af hvert computerelement og derved føre til bedre ydeevne og i forlængelse heraf bedre energiforbrug.

De nye computere indeholder tre dele, der fungerer sammen. Den ene er en opdatering af virksomhedens computer, der indeholder dens Wafer-Scale Engine eller WSE, chip, den største chip, der nogensinde er lavet. Dette system kaldes CS-2. Både WSE2 og CS-2 blev introduceret i april.

Også: Cerebras fortsætter 'absolut dominans' af high-end computere, står der med verdens største chip to-dot-oh

 wse2-natalia.jpg

Cerebras Systems produktchef for AI Natalia Vassilieva besidder virksomhedens WSE-2, en enkelt chip, der måler næsten hele overfladen af ​​en tolv tommer halvlederskive. Chippen blev først afsløret i april og er hjertet i den nye CS-2-maskine, virksomhedens anden version af sin dedikerede AI-computer.

Cerebras Systems

De nye elementer i denne uge er en rackmonteret boks kaldet MemoryX, som indeholder 2,4 petabyte kombineret med DRAM og NAND-flashhukommelse, til at gemme alle vægten af ​​det neurale net. En tredje boks er en såkaldt stofmaskine, der forbinder CS-2 med MemoryX, kaldet SwarmX. Stoffet kan forbinde hele 192 CS-2-maskiner til MemoryX for at bygge en klynge, der fungerer sammen på et enkelt stort neuralt net.

Parallelbehandling på store problemer findes typisk i to slags, parallelt med data eller modelparallel.

Til dato har Cerebras udnyttet modelparallellisme, hvorved de neurale netværkslag fordeles på tværs af forskellige dele af den massive chip, så lag og deres vægte løber parallelt. Cerebras -softwaren beslutter automatisk, hvordan lag skal fordeles på områder af chippen, og nogle lag kan få mere chipareal end andre.

Neurale vægte eller parametre er matricer, typisk repræsenteret med fire bytes pr. vægt, så vægtlagringen er dybest set et multiplum af fire gange uanset det samlede antal vægte. For GPT-3, der har 175 milliarder parametre, ville det samlede areal af hele det neurale netværk være 700 gigabyte.

En enkelt CS-1 kan indeholde alle parametre for et lille eller mellemstort netværk eller hele et givet lag af en stor model som GPT-3, uden at skulle bladre ud til ekstern hukommelse på grund af den store on-chip SRAM på 18 gigabyte.

“Det største lag i GPT-3 er omkring 12.000 x 48.000 elementer,” sagde Feldman og talte om dimensionerne af en enkelt vægtmatrix. “Det passer let på en enkelt WSE-2.”

I den nye WSE2-chip, der støder SRAM-hukommelse op til 40 gigabyte, kan en enkelt CS-2-maskine indeholde alle de parametre, der ville blive brugt til et givet lag af et 120 billioner parameter neuralt net, siger Cerebras. “Ved hot chips viser vi matrixmultiplikationer på 48.000 x 48.000, dobbelt så store som GPT-3,” bemærker han.

Når den bruges i kombination med MemoryX, i streamingmetoden, kan den enkelte CS-2 behandle alle modelvægte, når de streames til maskinen et lag ad gangen.

Virksomheden kalder det gerne “hjerneskala-computing” analogt med de 100 billioner synapser i den menneskelige hjerne.

Det neurale net på 120 billioner parametre i dette tilfælde er et syntetisk neuralt net udviklet internt af Cerebras til testformål, ikke et offentliggjort neuralt net.

Selvom CS-2 kan indeholde alle disse lagparametre i en maskine, tilbyder Cerebras nu at bruge MemoryX til at opnå dataparallellisme. Dataparallellisme er det modsatte af modelparallellisme, i den forstand at hver maskine har det samme sæt vægte, men et andet udsnit af dataene at arbejde med.

For at opnå dataparallellisme beholder Cerebras alle vægte i MemoryX og sender derefter selektivt disse vægte til CS-2'erne, hvor kun den enkelte skive data er gemt.

Hver CS-2, når den modtager streamingvægte, anvender disse vægte på inputdataene og sender derefter resultatet gennem aktiveringsfunktionen, en slags filter, der også er gemt på chip, som kontrollerer det vægtede input for at se, om en tærskel er nået.

Slutresultatet af alt det, der er gradienten, en lille justering af vægtene, som derefter sendes tilbage til MemoryX -boksen, hvor den bruges til at opdatere hovedlisten over vægte. SwarmX foretager al frem og tilbage-routing mellem MemoryX og CS-2, men det gør også noget mere.

“SwarmX laver både kommunikation og beregning,” forklarede Feldman. “SwarmX -stoffet kombinerer gradienterne, kaldet en reduktion, hvilket betyder, at den udfører en operation som et gennemsnit.”

Og resultatet, siger Feldman, er langt højere udnyttelse af CS-2 sammenlignet med konkurrencen, selv på nutidens produktionsneurale net som GPT-3.

“Andres udnyttelse er på 10% eller 20%, men vi ser udnyttelse mellem 70% og 80% på de største netværk – det er uhørt,” sagde Feldman. Tilføjelsen af ​​systemer tilbyder det, han kaldte “lineær ydelsesskalering”, hvilket betyder, at hvis seksten systemer tilføjes, bliver hastigheden til at træne et neuralt net seksten gange hurtigere.

Som et resultat, “I dag erstatter hver CS2 hundredvis af GPU'er, og vi kan nu erstatte tusindvis af GPU'er” med den klyngede tilgang, sagde han.

 hc2021-cerebras-embargoed-8 -24-slide-23b.jpg

Cerebras hævder, at de grupperede maskiner producerer lineær skalering, hvilket betyder, at for hvert antal maskiner, der tilføjes, øges hastigheden for at træne et netværk med et tilsvarende multiplum.

Cerebras -systemer

Parallelisme fører til en ekstra fordel, siger Cerebras, og det er det, der kaldes sparsitet.

Fra begyndelsen har Cerebras hævdet, at Nvidia GPU'er er groft ineffektive på grund af deres manglende hukommelse. GPU'en skal gå ud til hovedhukommelsen, DRAM, hvilket er dyrt, så den henter data i samlinger kaldet batches. Men det betyder, at GPU'en muligvis fungerer på data, der er nulværdierede, hvilket er spild. Og det betyder også, at vægtene ikke opdateres så ofte, mens de venter på, at hvert batch skal behandles.

WSE, fordi den har den enorme mængde on-chip SRAM, er i stand til at trække individuelle datasampler, en batch af en, som den hedder, og operere på mange sådanne individuelle prøver parallelt på tværs af chip. Og med hver enkelt prøve er det igen muligt med hurtig hukommelse at arbejde på bestemte vægte og opdatere dem selektivt og ofte.

Virksomheden argumenterer – i formel forskning og i et blogindlæg af produktchef for AI Natalia Vassilieva – at sparsomhed giver alle mulige fordele. Det giver mere effektiv hukommelsesbrug og muliggør dynamisk parallelisering, og det betyder, at tilbagepropagering, en baglæns passage gennem de neurale vægte, kan komprimeres til en effektiv pipeline, der yderligere paralleliserer ting og fremskynder træning. Det er en idé, der generelt synes at have en stigende interesse for området.

Da det blev tid til at flytte til et klynget system, kom Cerebras igen med en sparsom tilgang. Kun nogle vægte skal streames til hver CS-2 fra MemoryX, og kun nogle gradienter skal sendes tilbage til MemoryX.

Med andre ord hævder Cerebras, at sit systemområde netværk, der består af computer, switch og hukommelseslager, opfører sig som en stor version af den sparsomme computer, der sker på en enkelt WSE-chip.

Kombineret med streamingmetoden har sparsomheden i CS-2 sammen med MemoryX og SwarmX en fleksibel, dynamisk komponent, som virksomheden argumenterer for, kan ikke sidestilles med andre maskiner.

“Hvert lag kan have en anden sparsom maske,” sagde Feldman, “at vi kan give forskellig sparsomhed pr. epoke, og i løbet af træningsløbet kan vi ændre sparsiteten, herunder sparsomhed, der kan drage fordel af, hvad der er lært under uddannelsen, kaldet dynamisk sparsitet – det kan ingen andre.

Tilføjelse af sparsomhed til dataparallellisme, siger Feldman, bringer en størrelsesorden hurtigere i tiden til at træne store netværk.

 hc2021-cerebras -embargoed-8-24-slide-23.jpg

Cerebras går ind for tung og fleksibel brug af teknikken kendt som sparsity for at give ekstra ydelsesfordele.

Cerebras Systems

Selvfølgelig kunsten at sælge mange flere CS-2-maskiner sammen med de nye enheder , vil afhænge af, om markedet er klar til multi-billioner eller multi-ti-billioner-vægt neurale netværk. CS-2 og de andre komponenter forventes at blive sendt i 4. kvartal i år, så et par måneder fra nu.

Eksisterende kunder virker interesserede. Argonne National Laboratories, et af ni gigantiske supercomputere i det amerikanske energiministerium, har siden starten været bruger af CS-1-systemet. Selvom laboratoriet endnu ikke arbejder med CS-2 eller de andre komponenter, er forskerne begejstrede.

“De sidste mange år har vist os, at for NLP [naturlig sprogbehandling] -modeller, indsigter skaleres direkte med parametre – jo flere parametre, jo bedre resultater,” sagde Rick Stevens, der er associeret direktør for Argonne, i en udarbejdet erklæring.

Også: 'Vi gør om et par måneder, hvad der normalt ville tage et lægemiddeludviklingsprocesår at gøre': DoE's Argonne Labs kæmper mod COVID-19 med AI

“Cerebras opfindelser, som vil give en 100x stigning i parameterkapacitet, kan have potentiale til at transformere industrien,” sagde Stevens. “For første gang vil vi være i stand til at udforske modeller i hjernestørrelse og åbne store nye veje til forskning og indsigt.”

Spurgt om tiden er rigtig til sådanne hestekræfter, observerede Feldman: “Ingen lægger matzah på hylderne i januar” med henvisning til det traditionelle usyrede brød, der kun fyldes præcist, når det er nødvendigt, lige før påskeferien i foråret.

Tiden til massive klynger af AI -maskiner er kommet, sagde Feldman.

“Dette er ikke matzah i januar,” sagde han.

skal læse

 Ethics of AI: Fordele og risici ved kunstig intelligens

AI's etik: Fordele og risici ved kunstig intelligens

Den stigende AI -skala øger indsatsen for store etiske spørgsmål .

Læs mere

Relaterede emner:

Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software Tiernan Ray

Af Tiernan Ray | 24. august 2021 – 20:38 GMT (21:38 BST) | Emne: Kunstig intelligens