Bilde: Microsoft
Nvidia og Microsoft har gått sammen om å lage modellen Megatron-Turing Natural Language Generation, som duoen hevder er den “mektigste monolitiske transformatorspråklige modellen som er trent til nå”.
AI -modellen har 105 lag, 530 milliarder parametere og opererer på tykk superdatamaskinvare som Selene.
Til sammenligning har den berømte GPT-3 175 milliarder parametere.
“Hver modellreplika spenner over 280 NVIDIA A100 GPUer, med 8-veis tensor-skiver i en node og 35-veis rørledningsparallellisme på tvers av noder,” sa paret i et blogginnlegg.
Modellen ble trent på 15 datasett som inneholdt 339 milliarder tokens, og var i stand til å vise hvordan større modeller trenger mindre opplæring for å fungere godt.
Behovet for å operere med språk og prøver fra den virkelige verden betydde imidlertid at et gammelt problem med AI dukket opp igjen: Bias.
“Mens gigantiske språkmodeller utvikler den nyeste teknikken innen språkgenerering, lider de også av problemer som skjevhet og toksisitet,” sa duoen.
“Våre observasjoner med MT-NLG er at modellen plukker opp stereotyper og skjevheter fra dataene den er opplært på. Microsoft og Nvidia er forpliktet til å jobbe med å løse dette problemet.
” Våre observasjoner med MT- NLG er at modellen plukker opp stereotyper og skjevheter fra dataene den er trent på. Microsoft og Nvidia er opptatt av å jobbe med å løse dette problemet. “
Det var ikke så lenge siden at Microsoft fikk chatbot Tay til å bli full nazist i løpet av få timer ved å samhandle på internett.
Relatert dekning
AI-drevet app Natural tilbyr nytt grensesnitt for forbrukertransaksjoner Pass på, GPT-3, her kommer AI21s 'Jurassic' språkmodellOpenAI foreslår åpen kildekode Triton-språk som et alternativ til Nvidias CUDAHow AI og 5G vil drive neste innovasjonsbølge AI-industri, besatt med hastighet, er avsky for å vurdere energikostnaden i siste MLPerf benchmarkOpenAI sier 'Hei, verden!' med privat beta for Codex kodegenereringsverktøy
Relaterte emner:
Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software