NVIDIA fordobler AI-sprogmodeller og inferens som et substrat for Metaverse, i datacentre, skyen og på kanten

0
113

George Anadiotis

Af George Anadiotis for Big on Data | 9. november 2021 | Emne: Kunstig intelligens

GTC, NVIDIAs flagskibsbegivenhed, er altid en kilde til meddelelser omkring alt, hvad AI angår. Efterårsudgaven 2021 er ingen undtagelse. Huangs keynote understregede, hvad NVIDIA kalder Omniverset. Omniverse er NVIDIAs virtuelle verdenssimulerings- og samarbejdsplatform for 3D-arbejdsgange, der bringer dets teknologier sammen.

Baseret på det, vi har set, vil vi beskrive Omniverse som NVIDIAs bud på Metaverse. Du vil kunne læse mere om Omniverset i Stephanie Condon og Larry Dignans dækning her på ZDNet. Hvad vi kan sige er, at for at noget som dette skal fungere, er der brug for et sammenløb af teknologier.

Så lad os gennemgå nogle af opdateringerne i NVIDIAs teknologistack, med fokus på komponenter såsom store sprogmodeller (LLM'er) og inferens.

NeMo Megatron, NVIDIAs open source store sprogmodelplatform

NVIDIA afslørede, hvad det kalder NVIDIA NeMo Megatron-rammen til træning af sprogmodeller. Derudover stiller NVIDIA Megatron LLM til rådighed, en model med 530 milliarder, der kan trænes til nye domæner og sprog.

Bryan Catanzaro, Vice President for Applied Deep Learning Research hos NVIDIA, sagde, at “bygning store sprogmodeller til nye sprog og domæner er sandsynligvis den hidtil største supercomputing-applikation, og nu er disse muligheder inden for rækkevidde for verdens virksomheder.”

Mens LLM'er helt sikkert ser masser af trækkraft og et stigende antal applikationer, berettiger dette særlige tilbuds nytte til en vis undersøgelse. For det første er uddannelse LLM'er ikke for sarte sjæle og kræver dybe lommer. Det er blevet anslået, at oplæring af en model som OpenAI's GPT-3 koster omkring 12 millioner USD.

OpenAI har indgået partnerskab med Microsoft og gjort en API omkring GPT-3 tilgængelig for at kommercialisere den. Og der er en række spørgsmål at stille omkring gennemførligheden af ​​at træne sin egen LLM. Den åbenlyse er, om du har råd til det, så lad os bare sige, at Megatron ikke er rettet mod virksomheden generelt, men en specifik undergruppe af virksomheder på dette tidspunkt.

Det andet spørgsmål ville være – hvad for ? Har du virkelig brug for din egen LLM? Catanzaro bemærker, at LLMS “har vist sig at være fleksible og dygtige, i stand til at besvare dybe domænespørgsmål, oversætte sprog, forstå og opsummere dokumenter, skrive historier og beregne programmer”.

Der er baseret på kraftfulde imponerende AI-bedrifter på en række software- og hardwarefremskridt, og NVIDIA adresserer begge dele. Billede: NVIDIA

Vi vil ikke gå så langt som til at sige, at LLM'er “forstår” dokumenter, for eksempel, men lad os erkende, at LLM'er er tilstrækkeligt nyttige og vil blive ved med at blive bedre. Huang hævdede, at LLM'er “vil være den største mainstream HPC-applikation nogensinde”.

Det virkelige spørgsmål er – hvorfor bygge din egen LLM? Hvorfor ikke bruge for eksempel GPT-3's API? Konkurrencedifferentiering kan være et legitimt svar på dette spørgsmål. Prisen for værdi-funktionen kan være en anden, i en anden inkarnation af det ældgamle “køb versus bygge”-spørgsmål.

Med andre ord, hvis du er overbevist om, at du har brug for en LLM til at drive dine applikationer, og du planlægger at bruge GPT-3 eller en hvilken som helst anden LLM med lignende brugsvilkår, ofte nok, kan det være mere økonomisk at træne din egen. NVIDIA nævner use cases såsom at bygge domænespecifikke chatbots, personlige assistenter og andre AI-applikationer.

For at gøre det ville det give mere mening at tage udgangspunkt i en foruddannet LLM og skræddersy den til dine behov via overførselslæring i stedet for at træne en fra bunden. NVIDIA bemærker, at NeMo Megatron bygger på fremskridt fra Megatron, et open source-projekt ledet af NVIDIA-forskere, der studerer effektiv træning af store transformersprogmodeller i stor skala.

Virksomheden tilføjer, at NeMo Megatron-rammen gør det muligt for virksomheder at overvinde udfordringerne ved at træne sofistikerede naturlige sprogbehandlingsmodeller. Så værdiforslaget ser ud til at være — hvis du beslutter dig for at investere i LLM'er, hvorfor så ikke bruge Megatron? Selvom det lyder som et rimeligt forslag, bør vi bemærke, at Megatron ikke er det eneste spil i byen.

For nylig har EleutherAI, et kollektiv af uafhængige AI-forskere, åbnet deres 6 milliarder parameter GPT-j model. Derudover, hvis du er interesseret i sprog ud over engelsk, har vi nu en stor europæisk sprogmodel, der flyder engelsk, tysk, fransk, spansk og italiensk af Aleph Alpha. Wudao, er en kinesisk LLM, som også er den største LLM med 1,75 billioner parametre, og HyperCLOVA er en koreansk LLM med 204 milliarder parametre. Derudover er der altid andre, lidt ældre/mindre open source LLM'er såsom GPT2 eller BERT og dets mange variationer.

Signing på AI-modellens konklusion omhandler de samlede ejeromkostninger og drift< /h2>

En advarsel er, at når det kommer til LLM'er, betyder større (som ved at have flere parametre) ikke nødvendigvis bedre. En anden er, at selv med et grundlag som Megatron at bygge på, er LLM'er dyre dyr både at træne og betjene. NVIDIAs tilbud er indstillet til at adressere begge disse aspekter, også ved specifikt at målrette slutninger.

Megatron, bemærker NVIDIA, er optimeret til at skalere ud på tværs af den accelererede computerinfrastruktur i stor skala af NVIDIA DGX SuperPOD™. NeMo Megatron automatiserer kompleksiteten af ​​LLM-træning med databehandlingsbiblioteker, der indtager, kuraterer, organiserer og renser data. Ved at bruge avancerede teknologier til data-, tensor- og pipeline-parallelisering muliggør det, at træningen af ​​store sprogmodeller kan distribueres effektivt på tværs af tusindvis af GPU'er.

Men hvad med inferens? Når alt kommer til alt, i det mindste i teorien træner du kun LLM'er én gang, men modellen bruges mange-mange gange til at udlede – producere resultater. Inferensfasen af ​​driften står for omkring 90 % af de samlede energiomkostninger ved driften for AI-modeller. Så at have slutninger, der er både hurtige og økonomiske, er af afgørende betydning, og det gælder ud over LLM'er.

NVIDIA løser dette ved at annoncere større opdateringer til sin Triton Inference Server, da 25.000+ virksomheder verden over implementerer NVIDIA AI-inferens. Opdateringerne inkluderer nye muligheder i open source NVIDIA Triton Inference Server™-softwaren, som giver inferens på tværs af platforme på alle AI-modeller og rammer, og NVIDIA TensorRT™, som optimerer AI-modeller og giver en runtime for højtydende inferens på NVIDIA GPU'er .

NVIDIA introducerer en række forbedringer til Triton Inference Server. Det mest åbenlyse bånd til LLM'er er, at Triton nu har multi-GPU multinode-funktionalitet. Det betyder, at transformatorbaserede LLM'er, der ikke længere passer ind i en enkelt GPU, kan udledes på tværs af flere GPU'er og serverknudepunkter, hvilket NVIDIA siger, giver inferens i realtid.

90 % af den samlede energi, der kræves til AI-modeller kommer fra inferens

Triton Model Analyzer er et værktøj, der automatiserer en vigtig optimeringsopgave ved at hjælpe med at vælge de bedste konfigurationer til AI-modeller fra hundredvis af muligheder. Ifølge NVIDIA opnår den den optimale ydeevne, samtidig med at den sikrer kvaliteten af ​​den service, der kræves til applikationer.

RAPIDS FIL er en ny back-end til GPU- eller CPU-inferens af tilfældige skov- og gradient-boostede beslutningstræmodeller. som giver udviklere en samlet implementeringsmotor til både deep learning og traditionel maskinlæring med Triton.

Sidst men ikke mindst på softwarefronten kommer Triton nu med Amazon SageMaker Integration, der gør det muligt for brugerne nemt at implementere multi-framework-modeller ved hjælp af Triton i SageMaker, AWS' fuldt administrerede AI-tjeneste.

På hardwarefronten, Triton Understøtter nu også Arm CPU'er, udover NVIDIA GPU'er og x86 CPU'er. Virksomheden introducerede også NVIDIA A2 Tensor Core GPU, en lav-power, small-footprint accelerator til AI inferens på den kant, som NVIDIA hævder tilbyder op til 20 gange mere inferens ydeevne end CPU'er.

Triton giver AI-inferens om GPU'er og CPU'er i skyen, datacenter, enterprise edge og embedded, er integreret i AWS, Google Cloud, Microsoft Azure og Alibaba Cloud og er inkluderet i NVIDIA AI Enterprise. For at hjælpe med at levere tjenester baseret på NVIDIAs AI-teknologier til kanten, annoncerede Huang NVIDIA Launchpad.

NVIDIA bevæger sig proaktivt for at fastholde føringen med sit hardware- og softwareøkosystem

< p>Og det er langt fra alt, NVIDIA afslørede i dag. NVIDIA Modulus bygger og træner fysik-informerede maskinlæringsmodeller, der kan lære og adlyde fysikkens love. Grafer – en nøgledatastruktur i moderne datavidenskab – kan nu projiceres ind i dybneurale netværksrammer med Deep Graph Library eller DGL, en ny Python-pakke.

Huang introducerede også tre nye biblioteker: ReOpt for logistikindustrien på 10 billioner dollars. cuQuantum, for at fremskynde kvantecomputerforskning. Og cuNumeric, for at accelerere NumPy for forskere, dataforskere og maskinlærings- og AI-forskere i Python-samfundet. Og NVIDIA introducerer 65 nye og opdaterede SDK'er på GTC.

Så hvad skal man gøre af alt det? Selvom vi valgte kirsebær, ville hver af disse genstande sandsynligvis berettige sin egen analyse. Det store billede er, at NVIDIA endnu en gang bevæger sig proaktivt for at fastholde sit forspring i en fælles indsats for at binde sin hardware til sin software.

LLM'er kan virke eksotiske for de fleste organisationer på dette tidspunkt, men NVIDIA satser på, at de vil se mere interesse og praktiske anvendelser og positionere sig selv som en LLM-platform, som andre kan bygge videre på. Selvom der findes alternativer, vil det nok virke som et attraktivt forslag for mange organisationer at have noget, der er kurateret, understøttet og bundtet med NVIDIAs software- og hardware-økosystem og brand.

Det samme gælder fokus på inferens. I lyset af den stigende konkurrence fra en række hardwareleverandører, der bygger på arkitekturer, der er designet specifikt til AI-arbejdsbelastninger, fordobles NVIDIA i forhold til inferens. Dette er den del af driften af ​​AI-modeller, der spiller den største rolle i de samlede omkostninger ved ejerskab og drift. Og NVIDIA gør det endnu en gang i sin signaturstil – udnytter hardware og software til et økosystem.

220

Ingen hype, bare fakta: Kunstig intelligens i simple forretningstermer

AI er blevet et af de store, meningsløse buzzwords i vores tid. I denne video forklarer Chief Data Scientist fra Dun og Bradstreet AI i klare forretningstermer.

Læs mere

Hardware | Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software