Nvidia avklarer Megatron-Turing-skalakravet

0
160

Tiernan Ray

Av Tiernan Ray | 23. oktober 2021 | Tema: Kunstig intelligens

Du har kanskje lagt merke til at Microsoft og Nvidia i forrige uke kunngjorde at de hadde trent opp «verdens største og kraftigste generative språkmodell», kjent som «Megatron-Turing NLG 530B», som ZDNets Chris Duckett rapporterte.

Modellen, i dette tilfellet, er et nevralt nettverksprogram basert på «Transformer»-tilnærmingen som har blitt mye populær innen dyp læring. Megatron-Turing er i stand til å produsere tekst som virker realistisk, og utfører også ulike språktester som setningsfullføring.

Nyheten var noe forvirrende ved at Microsoft allerede hadde annonsert et program for et år siden som så ut til å være større og kraftigere. Mens Megatron-Turing NLG 530B bruker 530 milliarder nevrale “vekter” eller parametere for å komponere språkmodellen sin, har det som er kjent som “1T” én billion parametere.

Microsofts blogginnlegg som forklarer Megatron-Turing knyttet til Github-repoen vedlikeholdt av Nvidias Jared Casper, der de forskjellige språkmodellene er oppført, sammen med statistikk. Denne statistikken viser at ikke bare er 1T større enn Megatron-Turing NLG 530B, den har høyere tall for hvert ytelsestall, inkludert topp-tera-FLOPs, eller billioner av flytende operasjoner per sekund, som ble oppnådd.

< p>Så hvordan kan Megatron-Turing NLG 530B være størst hvis 1T er større i alle mål? For å løse saken snakket ZDNet med Nvidias Paresh Kharya, seniordirektør for produktmarkedsføring og ledelse.

Nøkkelen er at 1T aldri ble “trent til konvergens”, et begrep som betyr at modellen er ferdig utviklet og nå kan brukes til å utføre inferens, stadiet der spådommer blir gjort. I stedet gikk 1T gjennom et begrenset antall treningsløp, sa Kharya, kjent som “epoker”, som ikke fører til konvergens.

Som Kharya forklarer, “Trening av store modeller til konvergens tar uker og til og med måneder avhengig av størrelsen på superdatamaskinen som brukes.” Tabellen på GitHub-siden viser det som kalles “skaleringsstudier”, som skaper et mål på hva slags ytelse som kan oppnås selv uten å trene en modell til konvergens.

Slike studier “kan gjøres ved å gjøre delvis treningsløp i noen minutter i forskjellige skalaer og modellstørrelser,” sa Kharya til ZDNet.

megatron-turing-nlg-model-size-graph.jpg

Megatron-Turing NLG 530B behandlingsprogrammet for naturlig språk, utviklet av Nvidia og Microsoft, har 530 milliarder parametere. Selskapene sier at det er det største naturlige språkprogrammet “trent til konvergens”, som betyr, med sine nevrale vekter, eller parametere, fullt utviklet slik at det kan utføre slutningsoppgaver.

Bilde: Microsoft

Tallene for ulike beregninger, for eksempel “oppnådde teraFLOPs” er “ekte datapunkter,” sa Kharya, “målt ved å gjennomføre delvise treningsløp.”

Poenget med en delvis treningskjøring er å tilnærme et “miles per gallon”-mål som du ville gjort med en bil, sa Kharya, for at kundene skal vite hva som kreves for å trene og distribuere en bestemt modell før de forplikter seg til ved å gjøre det.

“Ulike kunder bruker forskjellige modeller, og de må estimere, hvis de skulle bringe en modellstørrelse online en Nvidia-plattform, hvor mye dataressurser de trenger å investere,” forklarte Kharya, “eller hvis de hadde en gitt mengde databehandling ressurser, hvor lang tid vil det ta å trene disse modellene.”

Datapunktene i FLOP-er kan fortelle en kunde hvor lenge de trenger en skyforekomst, eller hvor stor en forekomst de kommer til å trenge for en forpliktet mengde treningstid.

Alt som betyr at Megatron-Turing NLG 530B er den største modellen hvis nevrale vekter faktisk nå er tilstrekkelig utviklet til å kunne utføre på benchmark-tester, hvorav Nvidia og Microsoft gitt flere resultater.

Betydningen av denne prestasjonen, sa Kharya, er evnen til å distribuere en så stor modell på tvers av parallellisert infrastruktur.

microsoft-nvidia-table-of-neural-network-models-2021.jpg

Ulike nevrale nettverksmodeller utviklet av Microsoft og Nvidia, inkludert Megatron-Turing NLG 530B, og “1T”, en trillion-nettverksmodell. Figurer er fra ulike mengder trenings-epoker.

Nvidia

“Etter hvert som disse modellene blir større og større, kan de bryte minnet til en enkelt GPU, og noen ganger passer de ikke engang i minnet til en enkelt server,” observerte Kharya.

Ved å bruke Megatron -programvaren til å dele modeller mellom forskjellige GPUer og mellom forskjellige servere, og “ved å bruke både dataparallellisme og modellparallellisme” og smartere nettverk, “kan du oppnå veldig, veldig høy effektivitet, ” han sa.

“Det betyr over 50 % av den teoretiske toppytelsen til GPUer,” sa Kharya. “Det er et veldig, veldig høyt tall, noe som betyr at du oppnår hundrevis av teraFLOPs for hver GPU.”

Konkurrenter til Nvidia som oppstart Cerebras Systems har begynt å diskutere de teoretiske mulighetene for å trene modeller med flere trillioner parametere til konvergens, uten å faktisk vise en slik prestasjon.

Da Kharya ble spurt om når Nvidia og Microsoft skal trene på å konvergere en faktisk trillionsmodell. “Alle i bransjen jobber med disse virkelig gigantiske modellene, og det kommer til å skje,” sa han. “Men av hvem og når, vel, vent og se.”

Megatron-Turing NLG 530B er ikke et kommersielt produkt, det er et forskningsprosjekt mellom Nvidia og Microsoft. Nvidia har imidlertid en katalogside på nettstedet sitt hvor man kan få tak i dusinvis av modeller tilgjengelig i containere klare til å kjøre, inkludert transformatorbaserte språkmodeller og andre typer nevrale nettverk som de for datasyn.

< p>Modellene er “pre-trent”, klare til å brukes for slutninger, men noen kunder forbedrer også modellene ytterligere med ytterligere treningskjøringer på deres egne data, sa Kharya.

Relaterte emner:

Utvikler Digital Transformation CXO Internet of Things Innovation Enterprise Software Tiernan Ray

Av Tiernan Ray | 23. oktober 2021 | Emne: Kunstig intelligens