NVIDIA fördubblar AI-språkmodeller och slutledning som ett substrat för Metaverse, i datacenter, molnet och vid kanten

0
119

George Anadiotis

Av George Anadiotis för Big on Data | 9 november 2021 | Ämne: Artificiell intelligens

GTC, NVIDIAs flaggskeppsevenemang, är alltid en källa till tillkännagivanden kring allt som rör AI. Höstupplagan 2021 är inget undantag. Huangs keynote betonade vad NVIDIA kallar omniversum. Omniverse är NVIDIAs virtuella världssimulerings- och samarbetsplattform för 3D-arbetsflöden, som sammanför dess teknologier.

Baserat på vad vi har sett skulle vi beskriva Omniverse som NVIDIAs version av Metaverse. Du kommer att kunna läsa mer om Omniversum i Stephanie Condon och Larry Dignans bevakning här på ZDNet. Vad vi kan säga är att för att något sådant här ska fungera krävs ett sammanflöde av teknologier.

Så låt oss gå igenom några av uppdateringarna i NVIDIAs teknikstack, med fokus på komponenter som stora språkmodeller (LLM) och slutledning.

NeMo Megatron, NVIDIAs plattform för stora språkmodeller med öppen källkod

NVIDIA avslöjade vad de kallar NVIDIA NeMo Megatron-ramverket för utbildning av språkmodeller. Dessutom tillhandahåller NVIDIA Megatron LLM, en modell med 530 miljarder som kan tränas för nya domäner och språk.

Bryan Catanzaro, Vice President för Applied Deep Learning Research på NVIDIA, sa att “bygga stora språkmodeller för nya språk och domäner är sannolikt den största superdatorapplikationen hittills, och nu är dessa funktioner inom räckhåll för världens företag.”

Även om LLM:er verkligen ser massor av dragkraft och ett växande antal applikationer, motiverar det här specifika erbjudandets verktyg en viss granskning. För det första är utbildning LLM inte för svaga hjärtan, och kräver djupa fickor. Det har uppskattats att utbildning av en modell som OpenAI:s GPT-3 kostar cirka 12 miljoner USD.

OpenAI har samarbetat med Microsoft och gjort ett API kring GPT-3 tillgängligt för att kommersialisera det. Och det finns ett antal frågor att ställa kring genomförbarheten av att utbilda sin egen LLM. Den uppenbara är om du har råd med det, så låt oss bara säga att Megatron inte riktar sig till företaget i allmänhet, utan en specifik delmängd av företag vid det här laget.

Den andra frågan skulle vara – vad för ? Behöver du verkligen din egen LLM? Catanzaro noterar att LLMS “har visat sig vara flexibla och kapabla, kunna svara på djupa domänfrågor, översätta språk, förstå och sammanfatta dokument, skriva berättelser och beräkna program”.

Den kraftfulla imponerande AI-prestationerna är baserade på en rad mjukvaru- och hårdvaruframsteg, och NVIDIA vänder sig till båda. Bild: NVIDIA

Vi skulle inte gå så långt som att säga att LLM:er “förstår” dokument, till exempel, men låt oss erkänna att LLM:er är tillräckligt användbara och kommer att bli bättre. Huang hävdade att LLM:er “kommer att bli den största vanliga HPC-applikationen någonsin”.

Den verkliga frågan är – varför bygga din egen LLM? Varför inte använda GPT-3:s API till exempel? Konkurrensdifferentiering kan vara ett legitimt svar på denna fråga. Kostnaden för att värdera funktionen kan vara en annan, i en annan inkarnation av den urgamla “köp kontra bygg”-frågan.

Med andra ord, om du är övertygad om att du behöver en LLM för att driva dina applikationer och du planerar att använda GPT-3, eller någon annan LLM med liknande användningsvillkor, kan det ofta nog vara mer ekonomiskt att träna din egen. NVIDIA nämner användningsfall som att bygga domänspecifika chatbots, personliga assistenter och andra AI-applikationer.

För att göra det skulle det vara mer meningsfullt att utgå från en förutbildad LLM och skräddarsy den efter dina behov via överföringsinlärning, snarare än att träna en från början. NVIDIA noterar att NeMo Megatron bygger på framsteg från Megatron, ett öppen källkodsprojekt som leds av NVIDIA-forskare som studerar effektiv träning av stora transformatorspråksmodeller i stor skala.

Företaget tillägger att NeMo Megatron-ramverket gör det möjligt för företag att övervinna utmaningarna med att träna sofistikerade bearbetningsmodeller för naturligt språk. Så värdeförslaget verkar vara — om du bestämmer dig för att investera i LLM, varför inte använda Megatron? Även om det låter som ett rimligt förslag bör vi notera att Megatron inte är det enda spelet i stan.

Nyligen, EleutherAI, ett kollektiv av oberoende AI-forskare, öppnade sin 6 miljarder parameter GPT-j-modell med öppen källkod. Dessutom, om du är intresserad av språk utöver engelska, har vi nu en stor europeisk språkmodell som flyter engelska, tyska, franska, spanska och italienska av Aleph Alpha. Wudao, är en kinesisk LLM som också är den största LLM med 1,75 biljoner parametrar, och HyperCLOVA är en koreansk LLM med 204 miljarder parametrar. Dessutom finns det alltid andra, lite äldre/mindre LLM:er med öppen källkod som GPT2 eller BERT och dess många varianter.

Att sikta på AI-modellinferens tar upp den totala ägandekostnaden och driften< /h2>

En varning är att när det kommer till LLM:er betyder större (som att ha fler parametrar) inte nödvändigtvis bättre. En annan är att även med en grund som Megatron att bygga på är LLM: er dyra bestar både att träna och att driva. NVIDIAs erbjudande är inställt på att ta itu med båda dessa aspekter, genom att specifikt rikta inferenser också.

Megatron, noterar NVIDIA, är optimerad för att skala ut över den storskaliga accelererade datorinfrastrukturen i NVIDIA DGX SuperPOD™. NeMo Megatron automatiserar komplexiteten i LLM-utbildning med databehandlingsbibliotek som tar in, kurerar, organiserar och rengör data. Genom att använda avancerad teknologi för data-, tensor- och pipelineparallellisering gör det att utbildningen av stora språkmodeller kan distribueras effektivt över tusentals GPU:er.

Men hur är det med slutledning? När allt kommer omkring, åtminstone i teorin, tränar du bara LLM:er en gång, men modellen används många-många gånger för att sluta – producera resultat. Slutledningsfasen för drift står för cirka 90 % av den totala energikostnaden för driften för AI-modeller. Så att ha slutsatser som är både snabba och ekonomiska är av största vikt, och det gäller bortom LLM.

NVIDIA åtgärdar detta genom att tillkännage stora uppdateringar av sin Triton Inference Server, eftersom 25 000+ företag världen över distribuerar NVIDIA AI-inferens. Uppdateringarna inkluderar nya funktioner i programvaran NVIDIA Triton Inference Server™ med öppen källkod, som ger plattformsoberoende slutledning på alla AI-modeller och ramverk, och NVIDIA TensorRT™, som optimerar AI-modeller och ger en körtid för högpresterande slutledning på NVIDIA GPU:er .

NVIDIA introducerar ett antal förbättringar för Triton Inference Server. Den mest uppenbara kopplingen till LLM är att Triton nu har multi-GPU multinode-funktionalitet. Detta innebär att transformatorbaserade LLM:er som inte längre passar i en enda GPU kan infereras över flera GPU:er och servernoder, vilket NVIDIA säger ger realtidsinferensprestanda.

90 % av den totala energin som krävs för AI-modeller kommer från slutledning

Triton Model Analyzer är ett verktyg som automatiserar en viktig optimeringsuppgift genom att hjälpa till att välja de bästa konfigurationerna för AI-modeller bland hundratals möjligheter. Enligt NVIDIA uppnår den den optimala prestandan samtidigt som den säkerställer den servicekvalitet som krävs för applikationer.

RAPIDS FIL är en ny back-end för GPU- eller CPU-inferens av slumpmässiga skogs- och gradientförstärkta beslutsträdmodeller. som ger utvecklare en enhetlig implementeringsmotor för både djupinlärning och traditionell maskininlärning med Triton.

Sist men inte minst på mjukvarufronten kommer Triton nu med Amazon SageMaker Integration, vilket gör det möjligt för användare att enkelt distribuera multi-framework-modeller med Triton inom SageMaker, AWS:s helt hanterade AI-tjänst.

På hårdvarufronten, Triton Stöder nu även Arm-processorer, förutom NVIDIA GPU:er och x86-processorer. Företaget introducerade också NVIDIA A2 Tensor Core GPU, en lågeffektsaccelerator för AI-inferens vid kanten som NVIDIA hävdar ger upp till 20 gånger mer slutledningsprestanda än CPU:er.

Triton ger AI-inferens om grafikprocessorer och processorer i molnet, datacenter, företagskant och inbyggd, är integrerad i AWS, Google Cloud, Microsoft Azure och Alibaba Cloud och ingår i NVIDIA AI Enterprise. För att hjälpa till att leverera tjänster baserade på NVIDIAs AI-teknik till kanten, tillkännagav Huang NVIDIA Launchpad.

NVIDIA arbetar proaktivt för att behålla sin ledning med sitt hårdvaru- och mjukvaruekosystem

< p>Och det är långt ifrån allt NVIDIA presenterade idag. NVIDIA Modulus bygger och tränar fysikinformerade maskininlärningsmodeller som kan lära sig och följa fysikens lagar. Grafer – en nyckeldatastruktur inom modern datavetenskap – kan nu projiceras in i ramverk för djupneurala nätverk med Deep Graph Library, eller DGL, ett nytt Python-paket.

Huang introducerade också tre nya bibliotek: ReOpt, för logistikbranschen på 10 biljoner dollar. cuQuantum, för att påskynda kvantberäkningsforskning. Och cuNumeric, för att accelerera NumPy för forskare, datavetare och maskininlärnings- och AI-forskare i Python-gemenskapen. Och NVIDIA introducerar 65 nya och uppdaterade SDK:er på GTC.

Så vad ska man göra av allt det där? Även om vi valde körsbär, skulle var och en av dessa föremål förmodligen motivera sin egen analys. Den stora bilden är att NVIDIA återigen arbetar proaktivt för att behålla sin ledning i en samlad ansträngning för att koppla in sin hårdvara till sin mjukvara.

LLM:er kan verka exotiska för de flesta organisationer vid det här laget, men NVIDIA satsar på att de kommer att se mer intresse och praktiska tillämpningar, och positionerar sig som en LLM-plattform för andra att bygga vidare på. Även om det finns alternativ, kommer det förmodligen att verka som ett attraktivt förslag för många organisationer att ha något som är kurerat, stöds och paketerat med NVIDIAs mjukvara och hårdvara ekosystem och varumärke.

Detsamma gäller fokus på slutledning. Inför den ökande konkurrensen från en rad hårdvaruleverantörer som bygger på arkitekturer som utformats specifikt för AI-arbetsbelastningar, fördubblar NVIDIA sin slutsats. Detta är den del av driften av AI-modeller som spelar störst roll i den totala ägandekostnaden och driften. Och NVIDIA gör det återigen i sin signaturstil – utnyttjar hårdvara och mjukvara till ett ekosystem.

Ingen hype, bara fakta: Artificiell intelligens i enkla affärstermer

AI har blivit ett av de stora, meningslösa modeorden för vår tid. I den här videon förklarar Chief Data Scientist vid Dun and Bradstreet AI i tydliga affärstermer.

Läs mer

Hårdvara | Digital transformation | CXO | Internet of Things | Innovation | Företagsprogramvara