DUTCH

Nvidia verduidelijkt Megatron-Turing schaalclaim

Door Tiernan Ray | 23 oktober 2021 | Onderwerp: Kunstmatige Intelligentie

Je hebt misschien gemerkt dat Microsoft en Nvidia vorige week aankondigden dat ze “'s werelds grootste en krachtigste generatieve taalmodel” hadden getraind, bekend als “Megatron-Turing NLG 530B”, zoals Chris Duckett van ZDNet meldde.

Het model is in dit geval een neuraal netwerkprogramma op basis van de “Transformer”-benadering die zeer populair is geworden in deep learning. Megatron-Turing kan realistisch ogende tekst produceren en ook verschillende taaltests uitvoeren, zoals het voltooien van zinnen.

Het nieuws was enigszins verbijsterend omdat Microsoft een jaar geleden al een programma had aangekondigd dat groter en krachtiger leek. Terwijl Megatron-Turing NLG 530B 530 miljard neurale “gewichten” of parameters gebruikt om zijn taalmodel samen te stellen, heeft wat bekend staat als “1T” een biljoen parameters.

De blogpost van Microsoft waarin wordt uitgelegd waarom Megatron-Turing is gekoppeld aan de Github-repo die wordt onderhouden door Jared Casper van Nvidia, waar de verschillende taalmodellen worden vermeld, samen met statistieken. Die statistieken laten zien dat niet alleen 1T groter is dan Megatron-Turing NLG 530B, maar ook hogere cijfers heeft voor elk prestatiecijfer, inclusief de piek tera-FLOP's, of triljoenen drijvende-kommabewerkingen per seconde, die werden bereikt.

< p>Dus hoe kan Megatron-Turing NLG 530B de grootste zijn als 1T in elke maat groter is? Om de kwestie op te lossen, sprak ZDNet met Nvidia's Paresh Kharya, senior directeur van productmarketing en -beheer.

De sleutel is dat 1T nooit is “getraind tot convergentie”, een term die betekent dat het model volledig is ontwikkeld en nu kan worden gebruikt voor het uitvoeren van inferentie, het stadium waarin voorspellingen worden gedaan. In plaats daarvan onderging 1T een beperkt aantal trainingsruns, zei Kharya, ook wel 'tijdperken' genoemd, die niet tot convergentie leiden.

Zoals Kharya uitlegt: “Het trainen van grote modellen tot convergentie duurt weken en zelfs maanden afhankelijk van de grootte van de gebruikte supercomputer.” De tabel op de GitHub-pagina geeft een overzicht van zogenaamde “schaalstudies”, die een maatstaf vormen voor wat voor soort prestaties kunnen worden verkregen, zelfs zonder een model te trainen voor convergentie.

Dergelijke studies “kunnen worden gedaan door een paar minuten gedeeltelijke trainingsruns te doen op verschillende schaal- en modelgroottes”, vertelde Kharya aan ZDNet.

De cijfers voor verschillende statistieken, zoals 'behaalde teraFLOP's', zijn 'echte datapunten', zei Kharya, 'gemeten door het uitvoeren van gedeeltelijke trainingsruns'.

Het punt van een gedeeltelijke trainingsrun is om een ”mijl per gallon”-meting te benaderen zoals je zou doen met een auto, zei Kharya, zodat klanten weten wat er nodig is om een bepaald model te trainen en in te zetten voordat ze zich verbinden tot dit doen.

“Verschillende klanten gebruiken verschillende modellen en ze moeten inschatten, als ze een modelgrootte online zouden brengen op een Nvidia-platform, hoeveel computerbronnen ze zouden moeten investeren”, legt Kharya uit, “of als ze een bepaalde hoeveelheid computergebruik zouden hebben. resources, hoe lang zou het duren om deze modellen te trainen.”

De datapunten in FLOP's kunnen een klant vertellen hoe lang ze een cloudinstantie nodig hebben, of hoe groot een instantie ze nodig zullen hebben voor een toegewijde hoeveelheid trainingstijd.

Dat alles betekent dat Megatron-Turing NLG 530B het grootste model is waarvan de neurale gewichten nu eigenlijk voldoende ontwikkeld zijn om te kunnen presteren op benchmarktests, waarvan Nvidia en Microsoft leverde meerdere resultaten op.

Het belang van die prestatie, zei Kharya, is de mogelijkheid om zo'n groot model in te zetten in een parallelle infrastructuur.

microsoft-nvidia-table-of-neural-network-models-2021.jpg

“Omdat deze modellen steeds groter worden, kunnen ze het geheugen van een enkele GPU breken, en soms passen ze niet eens in het geheugen van een enkele server”, merkte Kharya op.

Door de Megatron-software te gebruiken om modellen te splitsen tussen verschillende GPU's en tussen verschillende servers, en “zowel dataparallellisme als modelparallellisme te gebruiken”, en slimmere netwerken, “kun je een zeer, zeer hoge efficiëntie bereiken, ” hij zei.

“Dat betekent meer dan 50% van de theoretische topprestaties van GPU's”, zegt Kharya. “Dat is een heel, heel hoog aantal, wat betekent dat je honderden teraFLOP's behaalt voor elke GPU.”

Concurrenten van Nvidia, zoals startup Cerebras Systems, zijn begonnen met het bespreken van het theoretische vooruitzicht van het trainen van multi-biljoen-parametermodellen tot convergentie, zonder daadwerkelijk een dergelijke prestatie te tonen.

Gevraagd wanneer Nvidia en Microsoft zullen trainen om een echt model van een biljoen dollar te convergeren, protesteerde Kharya. “Iedereen in de industrie werkt aan deze echt gigantische modellen, en het gaat gebeuren”, zei hij. “Maar door wie en wanneer, nou ja, wacht maar af.”

Megatron-Turing NLG 530B is geen commercieel product, het is een onderzoeksproject tussen Nvidia en Microsoft. Nvidia heeft echter een cataloguspagina op zijn website waar men tientallen modellen kan krijgen die in containers klaar voor gebruik beschikbaar zijn gesteld, inclusief op Transformer gebaseerde taalmodellen en andere soorten neurale netwerken zoals die voor computervisie.

< p>De modellen zijn “voorgetraind”, klaar om te worden gebruikt voor inferentie, maar sommige klanten verbeteren de modellen ook verder met extra trainingsruns op hun eigen gegevens, zei Kharya.

Verwante onderwerpen:

Ontwikkelaar Digitale Transformatie CXO Internet of Things Innovatie Enterprise Software

Door Tiernan Ray | 23 oktober 2021 | Onderwerp: Kunstmatige Intelligentie

Verwante onderwerpen:

LEAVE A REPLY