Microsoft og Nvidia lager 105-lags, 530 milliarder parameter språkmodell som trenger 280 A100 GPUer, men den er fortsatt partisk

0
119

 Chris Duckett

Av Chris Duckett | 12. oktober 2021 | Tema: Kunstig intelligens

 megatron-turing-nlg-model-size-graph.jpg

Bilde: Microsoft

Nvidia og Microsoft har gått sammen om å lage modellen Megatron-Turing Natural Language Generation, som duoen hevder er den “mektigste monolitiske transformatorspråklige modellen som er trent til nå”.

AI -modellen har 105 lag, 530 milliarder parametere og opererer på tykk superdatamaskinvare som Selene.

Til sammenligning har den berømte GPT-3 175 milliarder parametere.

“Hver modellreplika spenner over 280 NVIDIA A100 GPUer, med 8-veis tensor-skiver i en node og 35-veis rørledningsparallellisme på tvers av noder,” sa paret i et blogginnlegg.

Modellen ble trent på 15 datasett som inneholdt 339 milliarder tokens, og var i stand til å vise hvordan større modeller trenger mindre opplæring for å fungere godt.

Behovet for å operere med språk og prøver fra den virkelige verden betydde imidlertid at et gammelt problem med AI dukket opp igjen: Bias.

“Mens gigantiske språkmodeller utvikler den nyeste teknikken innen språkgenerering, lider de også av problemer som skjevhet og toksisitet,” sa duoen.

“Våre observasjoner med MT-NLG er at modellen plukker opp stereotyper og skjevheter fra dataene den er opplært på. Microsoft og Nvidia er forpliktet til å jobbe med å løse dette problemet.

” Våre observasjoner med MT- NLG er at modellen plukker opp stereotyper og skjevheter fra dataene den er trent på. Microsoft og Nvidia er opptatt av å jobbe med å løse dette problemet. “

Det var ikke så lenge siden at Microsoft fikk chatbot Tay til å bli full nazist i løpet av få timer ved å samhandle på internett.

Relatert dekning

AI-drevet app Natural tilbyr nytt grensesnitt for forbrukertransaksjoner Pass på, GPT-3, her kommer AI21s 'Jurassic' språkmodellOpenAI foreslår åpen kildekode Triton-språk som et alternativ til Nvidias CUDAHow AI og 5G vil drive neste innovasjonsbølge AI-industri, besatt med hastighet, er avsky for å vurdere energikostnaden i siste MLPerf benchmarkOpenAI sier 'Hei, verden!' med privat beta for Codex kodegenereringsverktøy

Relaterte emner:

Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software  Chris Duckett

Av Chris Duckett | 12. oktober 2021 | Tema: Kunstig intelligens