Du har måske bemærket, at Microsoft og Nvidia i sidste uge annoncerede, at de havde trænet “verdens største og mest kraftfulde generative sprogmodel,” kendt som “Megatron-Turing NLG 530B”, som ZDNets Chris Duckett rapporterede.
Modellen, i dette tilfælde, er et neuralt netværksprogram baseret på “Transformer” tilgangen, der er blevet meget populær inden for dyb læring. Megatron-Turing er i stand til at producere tekst, der ser realistisk ud og udfører også forskellige sprogtests, såsom færdiggørelse af sætninger.
Nyheden var noget forvirrende, idet Microsoft allerede havde annonceret et program for et år siden, der så ud til at være større og mere kraftfuldt. Mens Megatron-Turing NLG 530B bruger 530 milliarder neurale “vægte” eller parametre til at sammensætte sin sprogmodel, har det, der er kendt som “1T” en billion parametre.
Microsofts blogindlæg, der forklarer Megatron-Turing knyttet til Github-repoen vedligeholdt af Nvidias Jared Casper, hvor de forskellige sprogmodeller er listet sammen med statistik. Disse statistikker viser, at den ikke kun er 1T større end Megatron-Turing NLG 530B, den har højere tal for hvert præstationstal, inklusive peak tera-FLOP'erne eller billioner af flydende kommaoperationer pr. sekund, der blev opnået.
< p>Så hvordan kan Megatron-Turing NLG 530B være den største, hvis 1T er større i alle mål? For at løse sagen talte ZDNet med Nvidias Paresh Kharya, seniordirektør for produktmarketing og -ledelse.
Nøglen er, at 1T aldrig blev “uddannet til konvergens”, et udtryk, der betyder, at modellen er fuldt udviklet og nu kan bruges til at udføre inferens, det stadium, hvor forudsigelser fremsættes. I stedet gennemgik 1T et begrænset antal træningsløb, sagde Kharya, kendt som “epoker”, som ikke fører til konvergens.
Som Kharya forklarer: “Det tager uger og endda måneder at træne store modeller til konvergens. afhængigt af størrelsen på den anvendte supercomputer.” Tabellen på GitHub-siden viser, hvad der kaldes “skaleringsstudier”, som skaber et mål for, hvilken slags præstation der kan opnås, selv uden at træne en model til at konvergens.
Sådanne undersøgelser “kan udføres ved at lave delvise træningsløb i et par minutter i forskellige skalaer og modelstørrelser,” sagde Kharya til ZDNet.
Megatron-Turing NLG 530B behandlingsprogrammet for naturligt sprog, udviklet af Nvidia og Microsoft, har 530 milliarder parametre. Virksomhederne siger, at det er det største naturlige sprogprogram “trænet til at konvergense”, hvilket betyder, at det med sine neurale vægte eller parametre er fuldt udviklet, så det kan udføre inferensopgaver.
Billede: Microsoft
Tallene for forskellige metrics, såsom “opnåede teraFLOPs” er “rigtige datapunkter,” sagde Kharya, “målt ved at udføre delvise træningsløb.”
Punkten med et delvist træningsløb er at tilnærme et “miles per gallon” mål, som du ville gøre med en bil, sagde Kharya, for at kunderne ved, hvad det kræver at træne og implementere en bestemt model, før de forpligter sig til at ved at gøre sådan.
“Forskellige kunder bruger forskellige modeller, og de skal estimere, hvis de skulle bringe en modelstørrelse online på en Nvidia-platform, hvor mange computerressourcer de skulle investere,” forklarede Kharya, “eller hvis de havde en given mængde af computere. ressourcer, hvor lang tid vil det tage at træne disse modeller.”
Datapunkterne i FLOP'er kan fortælle en kunde, hvor længe de har brug for en cloud-instans, eller hvor stor en instans de har brug for for en forpligtet mængde træningstid.
Alt det betyder, at Megatron-Turing NLG 530B er den største model, hvis neurale vægte faktisk nu er tilstrækkeligt udviklet til at kunne udføre på benchmark-tests, hvoraf Nvidia og Microsoft gav flere resultater.
Betydningen af denne præstation, sagde Kharya, er evnen til at implementere en så stor model på tværs af paralleliseret infrastruktur.
Forskellige neurale netværksmodeller udviklet af Microsoft og Nvidia, herunder Megatron-Turing NLG 530B og “1T”, en trillion-netværksmodel. Tal er fra forskellige mængder af trænings “epoker.”
Nvidia
“Da disse modeller bliver større og større, kan de bryde hukommelsen til en enkelt GPU, og nogle gange passer de ikke engang i hukommelsen til en enkelt server,” bemærkede Kharya.
Ved at bruge Megatron-softwaren til at opdele modeller mellem forskellige GPU'er og mellem forskellige servere, og “ved at bruge både dataparallelisme og modelparallelisme,” og smartere netværk, “er du i stand til at opnå meget, meget høj effektivitet, ” han sagde.
“Det betyder over 50 % af GPU'ernes teoretiske topydelse,” sagde Kharya. “Det er et meget, meget højt tal, hvilket betyder, at du opnår hundredvis af teraFLOP'er for hver GPU.”
Konkurrenter til Nvidia såsom startup Cerebras Systems er begyndt at diskutere den teoretiske udsigt til at træne multi-billion-parameter-modeller til konvergens, uden faktisk at vise en sådan præstation.
At blive spurgt, hvornår Nvidia og Microsoft vil træne for at konvergensere en faktisk en-billion-model, udtalte Kharya. “Alle i branchen arbejder på disse virkelig gigantiske modeller, og det kommer til at ske,” sagde han. “Men af hvem og hvornår, ja, vent og se.”
Megatron-Turing NLG 530B er ikke et kommercielt produkt, det er et forskningsprojekt mellem Nvidia og Microsoft. Nvidia har dog en katalogside på sit websted, hvor man kan få snesevis af modeller gjort tilgængelige i containere, der er klar til at køre, inklusive transformatorbaserede sprogmodeller og andre former for neurale netværk såsom dem til computersyn.
< p>Modellerne er “præ-trænede”, klar til at blive brugt til slutninger, men nogle kunder forbedrer også modellerne yderligere med yderligere træningskørsler på deres egne data, sagde Kharya.
Relaterede emner:
Udvikler Digital Transformation CXO Internet of Things Innovation Enterprise Software