Du kanske har märkt att förra veckan meddelade Microsoft och Nvidia att de hade tränat “världens största och mest kraftfulla generativa språkmodell”, känd som “Megatron-Turing NLG 530B”, som ZDNets Chris Duckett rapporterade.
Modellen, i detta fall, är ett neuralt nätverksprogram baserat på “Transformer” -metoden som har blivit mycket populär inom djupinlärning. Megatron-Turing kan producera realistisk text och kan även utföra olika språktester som t.ex. meningskomplettering.
Nyheten var något förbryllande eftersom Microsoft redan för ett år sedan tillkännagav ett program som verkade vara större och kraftfullare. Medan Megatron-Turing NLG 530B använder 530 miljarder neurala “vikter” eller parametrar för att komponera sin språkmodell, har det som kallas “1T” en biljon parametrar.
Microsofts blogginlägg som förklarar Megatron-Turing kopplat till Github-repo som underhålls av Nvidias Jared Casper, där de olika språkmodellerna listas, tillsammans med statistik. Denna statistik visar att den inte bara är 1T större än Megatron-Turing NLG 530B, den har högre siffror för varje prestandasiffra, inklusive de högsta tera-FLOP:erna, eller biljoner flyttalsoperationer per sekund, som uppnåddes.
< p>Så hur kan Megatron-Turing NLG 530B vara störst om 1T är större i alla mått? För att lösa frågan talade ZDNet med Nvidias Paresh Kharya, senior chef för produktmarknadsföring och ledning.
Nyckeln är att 1T aldrig “tränades till konvergens”, en term som betyder att modellen har utvecklats fullt ut och nu kan användas för att utföra slutledningar, det stadium där förutsägelser görs. Istället gick 1T igenom ett begränsat antal träningspass, säger Kharya, känd som “epoker”, som inte leder till konvergens.
Som Kharya förklarar, “Att träna stora modeller till konvergens tar veckor och till och med månader beroende på storleken på superdatorn som används.” Tabellen på GitHub -sidan listar vad som kallas “skalningsstudier”, vilket skapar ett mått på vilken typ av prestanda som kan uppnås även utan utbildning av en modell för konvergens.
Sådana studier “kan göras genom att göra partiella träningslopp under några minuter i olika skala och modellstorlekar,” sa Kharya till ZDNet.
Megatron-Turing NLG 530B bearbetningsprogram för naturligt språk, utvecklat av Nvidia och Microsoft, har 530 miljarder parametrar. Företagen säger att det är det största naturliga språkprogrammet “tränat till konvergens”, vilket betyder, med sina neurala vikter, eller parametrar, fullt utvecklade så att det kan utföra slutledningsuppgifter.
Bild: Microsoft
Siffrorna för olika mätvärden, som “uppnådda teraFLOPs” är “riktiga datapunkter”, sa Kharya, “mätt genom att genomföra partiella träningskörningar.”
Poängen med en delträningskörning är att approximera ett “mil per gallon”-mått som du skulle göra med en bil, sa Kharya, för att kunderna ska veta vad som krävs för att träna och distribuera en viss modell innan de förbinder sig att gör så.
“Olika kunder använder olika modeller och de måste uppskatta, om de skulle lägga en modellstorlek online till en Nvidia-plattform, hur mycket datorresurser de skulle behöva investera”, förklarade Kharya, “eller om de hade en viss mängd datoranvändning resurser, hur lång tid skulle det ta att utbilda dessa modeller. “
Datapunkterna i FLOP: er kan berätta för en kund hur länge de skulle behöva en molninstans eller hur stor instans de kommer att behöva för en engagerad mängd träningstid.
Allt det betyder att Megatron-Turing NLG 530B är den största modellen vars neurala vikter faktiskt nu är tillräckligt utvecklade för att kunna utföra på benchmark-tester, varav Nvidia och Microsoft gett flera resultat.
Betydelsen av denna prestation, sade Kharya, är förmågan att distribuera en så stor modell över parallelliserad infrastruktur.
Olika neurala nätverksmodeller utvecklade av Microsoft och Nvidia, inklusive Megatron-Turing NLG 530B och “1T”, en biljon-nätverksmodell. Figurer är från olika mängder av tränings-“epoker.”
Nvidia
“I takt med att dessa modeller blir större och större kan de bryta minnet hos en enda GPU, och ibland passar de inte ens i minnet på en enda server”, observerade Kharya.
Genom att använda Megatron-mjukvaran för att dela upp modeller mellan olika GPU:er och mellan olika servrar, och “med både dataparallellism och modellparallellism” och smartare nätverk, “kan du uppnå mycket, mycket hög effektivitet, ” han sa.
“Det betyder över 50 % av den teoretiska toppprestanda för GPU:er”, sa Kharya. “Det är en väldigt, väldigt hög siffra, vilket betyder att du uppnår hundratals teraFLOPs för varje GPU.”
Konkurrenter till Nvidia, till exempel uppstart av Cerebras Systems, har börjat diskutera den teoretiska utsikten att träna flera biljoner parametermodeller till konvergens, utan att faktiskt visa en sådan prestation.
På frågan när Nvidia och Microsoft kommer att träna för att konvergera en verklig en biljon modell, svarade Kharya. “Alla i branschen arbetar på dessa riktigt gigantiska modeller, och det kommer att hända”, sa han. “Men av vem och när, ja, vänta och titta.”
Megatron-Turing NLG 530B är inte en kommersiell produkt, det är ett forskningsprojekt mellan Nvidia och Microsoft. Nvidia har dock en katalogsida på sin webbplats där man kan få dussintals modeller tillgängliga i behållare redo att köras, inklusive transformatorbaserade språkmodeller och andra typer av neurala nätverk som de för datorseende.
< p>Modellerna är “förtränade”, redo att användas för slutledning, men vissa kunder förbättrar också modellerna ytterligare med ytterligare träningskörningar på deras egna data, sa Kharya.
Relaterade ämnen:
Utvecklare Digital Transformation CXO Internet of Things Innovation Enterprise Software