Cerebras förbereder sig för eran med 120 biljoner parametrar neurala nätverk

0
118

 Tiernan Ray

Av Tiernan Ray | 24 augusti 2021 – 20:38 GMT (21:38 BST) | Ämne: Artificiell intelligens

 hc2021-cerebras-embargoed-8-24-slide-10.jpg

Cerebras lade till sin tidigare annonserade CS-2 AI-dator med en ny switchprodukt, SwarmX, som gör routning men också beräkningar, och en minnesdator som innehåller 2,4 petabyte DRAM och NAND, kallad MemoryX.

Cerebras Systems

Artificiell intelligens i sin djupa inlärningsform producerar neurala nätverk som kommer att ha biljoner och biljoner neurala vikter eller parametrar, och den ökande skalan ger speciella problem för hårdvaran och programvaran som används för att utveckla sådana neurala nätverk.

“På två år blev modellerna tusen gånger större och de krävde tusen gånger mer beräkning”, säger Andrew Feldman, medgrundare och VD för AI-systemtillverkaren Cerebras Systems, som sammanfattar den senaste historien om neurala nät i en intervju med ZDNet via Zoom.

“Det är en tuff bana”, säger Feldman.

Feldmans företag presenterar den här veckan nya datorer på den årliga Hot Chips -datorkortkonferensen för avancerad dator. Konferensen hålls praktiskt taget i år. Cerebras utfärdade ett pressmeddelande om de nya datorerna.

Cerebras, som tävlar med AI -ledaren, Nvidia, och med andra AI -startups, som Graphcore och SambaNova Systems, syftar till att leda i prestanda när de tränar de allt större nätverken. Träning är fasen där ett neuralt nätprogram utvecklas genom att det utsätts för stora mängder data och justerar neurala nettovikter tills de ger högsta möjliga noggrannhet.

Även: “Vi kan lösa detta problem på en tid som ingen mängd GPU eller CPU kan uppnå”, säger Cerebras uppstart till superdatorkonferensen

Det är ingen hemlighet att neurala nätverk har stadigt ökat i storlek. Under det senaste året, vad som hade varit världens största neurala nät mätt med neurala vikter, OpenAI: s GPT-3 naturliga språkbearbetningsprogram, med 175 miljarder vikter, förmörkades av Googles 1,6 biljoner parametermodell, Switch Transformer.

Sådana enorma modeller stöter på problem eftersom de sträcker sig över gränserna för ett enda datasystem. Minnet för en enda GPU, i storleksordningen 16 gigabyte, överväldigas av potentiellt hundratals terabyte minne som krävs för en modell som GPT-3. Därför blir gruppering av system avgörande.

Och hur man kluster blir den avgörande frågan, eftersom varje maskin måste hållas upptagen eller annars sjunker användningen. Till exempel skapade Nvidia, Stanford och Microsoft i år en version av GPT-3 med en biljon parametrar, och de sträckte den över 3072 GPU: er. Men utnyttjandet, det vill säga antalet operationer per sekund, var bara 52% av de toppoperationer som maskinerna teoretiskt sett borde kunna.

Därför är problemet Feldman och Cerebras ska lösa är att hantera större och större nätverk på ett sätt som kommer att få bättre utnyttjande av varje datorelement och därigenom leda till bättre prestanda och i förlängningen bättre energianvändning.

De nya datorerna innehåller tre delar som samverkar. Den ena är en uppdatering av företagets dator som innehåller dess Wafer-Scale Engine eller WSE, chip, det största chip som någonsin gjorts. Det systemet kallas CS-2. Både WSE2 och CS-2 introducerades i april.

Också: Cerebras fortsätter “absolut dominans” av avancerade beräkningar, säger det, med världens största chip två-prick-oh

 wse2-natalia.jpg

Cerebras Systems produktchef för AI Natalia Vassilieva innehar företagets WSE-2, ett enda chip som mäter nästan hela ytan på en tolv-tums halvledarskiva. Chippet presenterades första gången i april och är hjärtat i den nya CS-2-maskinen, företagets andra version av sin dedikerade AI-dator.

Cerebras Systems

De nya elementen denna vecka är en rackmonterad låda som heter MemoryX, som innehåller 2,4 petabyte kombinerat med DRAM- och NAND-flashminne, för att lagra alla vikter i neuralnätet. En tredje låda är en så kallad tygmaskin som ansluter CS-2 till MemoryX, kallad SwarmX. Tyget kan ansluta upp till 192 CS-2-maskiner till MemoryX för att bygga ett kluster som fungerar tillsammans på ett enda stort neuralt nät.

Parallell bearbetning av stora problem finns vanligtvis i två typer, dataparallell eller modellparallell.

Hittills har Cerebras utnyttjat modellparallellism, där de neurala nätverkslagren fördelas över olika delar av det massiva chipet, så att lager och deras vikter löper parallellt. Cerebras -programvaran bestämmer automatiskt hur man ska fördela lager till områden i chipet, och vissa lager kan få mer chiparea än andra.

Neurala vikter eller parametrar är matriser, vanligtvis representerade med fyra byte per vikt, så viktlagringen är i princip en multipel av fyra gånger oavsett det totala antalet vikter. För GPT-3, som har 175 miljarder parametrar, skulle den totala ytan för hela neurala nätverket vara 700 gigabyte.

En enda CS-1 kan hålla alla parametrar för ett litet eller medelstort nätverk eller hela ett visst lager av en stor modell som GPT-3, utan att behöva bläddra ut i externt minne på grund av det stora on-chip-SRAM på 18 gigabyte.

“Det största lagret i GPT-3 är cirka 12 000 x 48 000 element”, säger Feldman och talar om dimensionerna hos en enda viktmatris. “Det passar enkelt på en enda WSE-2.”

I det nya WSE2-chipet, som stöter upp SRAM-minne till 40 gigabyte, kan en enda CS-2-maskin rymma alla parametrar som skulle användas för ett givet lager av ett 120-biljonparameternetalt nät, säger Cerebras. “Vid heta chips visar vi matrismultiplikationer på 48 000 x 48 000, dubbelt så stora som GPT-3”, konstaterar han.

När den används i kombination med MemoryX, i streamingmetoden, kan den enda CS-2 bearbeta alla modellvikter när de strömmas till maskinen ett lager i taget.

Företaget gillar att kalla det “hjärnskala-beräkning” analogt med de 100 biljoner synapserna i den mänskliga hjärnan.

Neuralnätet med 120 biljoner parametrar i detta fall är ett syntetiskt neuralt nät som utvecklats internt av Cerebras för teständamål, inte ett publicerat neuralt nät.

Även om CS-2 kan hålla alla dessa lagerparametrar i en maskin, erbjuder Cerebras nu att använda MemoryX för att uppnå dataparallellism. Dataparallellism är motsatsen till modellparallellism, i den meningen att varje maskin har samma uppsättning vikter men en annan bit av data att arbeta med.

För att uppnå dataparallellism behåller Cerebras alla vikter i MemoryX och sänder sedan selektivt dessa vikter till CS-2, där endast den enskilda delen av data lagras.

Varje CS-2, när den tar emot strömningsvikterna, tillämpar dessa vikter på inmatningsdata och skickar sedan resultatet genom aktiveringsfunktionen, ett slags filter som också lagras på chip, som kontrollerar den vägda ingången för att se om en tröskel uppnås.

Slutresultatet av allt som är gradienten, en liten justering av vikterna, som sedan skickas tillbaka till MemoryX -rutan där den används för att uppdatera huvudlistan över vikter. SwarmX gör all fram och tillbaka routing mellan MemoryX och CS-2, men det gör också något mer.

“SwarmX gör både kommunikation och beräkning”, förklarade Feldman. “SwarmX -tyget kombinerar gradienterna, som kallas en reduktion, vilket innebär att den gör en operation som ett genomsnitt.”

Och resultatet, säger Feldman, är ett betydligt högre utnyttjande av CS-2 jämfört med konkurrenterna även på dagens produktionsneurala nät som GPT-3.

“Andra människors utnyttjande ligger på 10% eller 20%, men vi ser utnyttjande mellan 70% och 80% på de största nätverken – det är helt okänt”, säger Feldman. Tillägget av system erbjuder vad han kallade “linjär prestationsskalning”, vilket innebär att om sexton system läggs till blir hastigheten att träna ett neuralt nät sexton gånger snabbare.

Som ett resultat, “Idag ersätter varje CS2 hundratals GPU: er, och vi kan nu ersätta tusentals GPU: er” med den grupperade metoden, sade han.

 hc2021-cerebras-embargoed-8 -24-slide-23b.jpg

Cerebras hävdar att de grupperade maskinerna producerar linjär skalning, vilket innebär att för varje antal maskiner som läggs till ökar hastigheten för att träna ett nätverk med en motsvarande multipel.

Cerebras -system

Parallelism leder till en ytterligare fördel, säger Cerebras, och det är det som kallas sparsamhet.

Från början har Cerebras hävdat att Nvidia -GPU: er är mycket ineffektiva på grund av deras brist på minne. GPU: n måste gå ut till huvudminnet, DRAM, vilket är dyrt, så det hämtar data i samlingar som kallas batcher. Men det betyder att GPU: n kan arbeta med data som är nollvärderade, vilket är slöseri. Och det betyder också att vikterna inte uppdateras lika ofta medan de väntar på att varje batch ska bearbetas.

WSE, eftersom den har den enorma mängden on-chip SRAM, kan dra individuella dataprover, en batch om en, som den kallas, och arbeta med många sådana individuella sampel parallellt över chip. Och för varje enskilt prov är det möjligt, igen, med snabbt minne, att bara arbeta med vissa vikter och uppdatera dem selektivt och ofta.

Företaget hävdar – i formell forskning och i ett blogginlägg av produktchef för AI Natalia Vassilieva – att sparsamhet ger alla möjliga fördelar. Det möjliggör mer effektiv minnesanvändning och möjliggör dynamisk parallellisering, och det betyder att backpropagation, en bakåtgående passering genom neuralvikterna, kan komprimeras till en effektiv pipeline som ytterligare parallelliserar saker och påskyndar träningen. Det är en idé som verkar hålla ett ökande intresse för området i allmänhet.

När det var dags att flytta till ett grupperat system, kom Cerebras med en gles metod igen. Endast några vikter behöver streamas till varje CS-2 från MemoryX, och bara några gradienter behöver skickas tillbaka till MemoryX.

Med andra ord hävdar Cerebras att sitt systemområdesnätverk består av dator, switch och minneslager, beter sig som en stor version av den glesa beräkningen som händer på ett enda WSE-chip.

Kombinerat med streamingmetoden har sparsamheten i CS-2, tillsammans med MemoryX och SwarmX, en flexibel, dynamisk komponent som företaget hävdar inte kan jämställas med andra maskiner.

“Varje lager kan ha en annan gles mask,” sa Feldman, “att vi kan ge olika sparsamhet per epok, och under träningspasset kan vi ändra sparsamheten, inklusive sparsamhet som kan dra nytta av vad som är lärt sig under utbildningen, kallad dynamisk sparsitet – ingen annan kan göra det.

Att lägga sparsamhet till dataparallellism, säger Feldman, ger en storleksordning snabbare i tiden för att träna stora nätverk.

 hc2021-cerebras -embargoed-8-24-slide-23.jpg

Cerebras förespråkar tung och flexibel användning av tekniken som kallas sparsitet för att ge ytterligare prestandafördelar.

Cerebras Systems

Naturligtvis konsten att sälja många fler CS-2-maskiner, tillsammans med de nya enheterna , kommer att bero på om marknaden är redo för flera biljoner eller flera tiotals biljoner vikt neurala nätverk. CS-2 och de andra komponenterna förväntas levereras under fjärde kvartalet i år, så om några månader.

Befintliga kunder verkar intresserade. Argonne National Laboratories, en av nio jätte superdatorcentra i det amerikanska energidepartementet, har använt CS-1-systemet sedan början. Även om labbet ännu inte arbetar med CS-2 eller de andra komponenterna, är forskarna entusiastiska.

“De senaste åren har visat oss att för NLP [bearbetning] -modeller, insikter skala direkt med parametrar – ju fler parametrar, desto bättre resultat”, säger Rick Stevens, som är associerad direktör för Argonne, i ett förberett uttalande.

Även: 'Vi gör om några månader vad som normalt skulle ta en läkemedelsutvecklingsprocess år att göra': DoE: s Argonne Labs kämpar mot COVID-19 med AI

“Cerebras uppfinningar, som kommer att ge en 100x ökning av parameterkapacitet, kan ha potential att förändra industrin”, säger Stevens. “För första gången kommer vi att kunna utforska modeller i hjärnstorlek och öppna stora nya vägar för forskning och insikt.”

På frågan om tiden är rätt för sådana hästkrafter observerade Feldman, “Ingen lägger matzah på hyllorna i januari”, med hänvisning till det traditionella osyrade brödet som bara lagras exakt vid behov, strax före påsklovet på våren.

Tiden för massiva kluster av AI -maskiner har kommit, sa Feldman.

“Det här är inte matzah i januari”, sa han.

måste läsa

 Etik för AI: Fördelar och risker med artificiell intelligens

AI: AI: Fördelar och risker med artificiell intelligens

Den ökande AI -höjningen ökar insatserna för stora etiska frågor .

Läs mer

Relaterade ämnen:

Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software Tiernan Ray

Av Tiernan Ray | 24 augusti 2021 – 20:38 GMT (21:38 BST) | Ämne: Artificiell intelligens