Microsoft och Nvidia skapar 105-lagers, 530 miljarder parameterspråksmodell som behöver 280 A100 GPU: er, men den är fortfarande partisk

0
129

 Chris Duckett

Av Chris Duckett | 12 oktober 2021 | Ämne: Artificiell intelligens

 megatron-turing-nlg-model-size-graph.jpg

Bild: Microsoft

Nvidia och Microsoft har samarbetat för att skapa Megatron-Turing Natural Language Generation-modellen, som duon hävdar är den “mest kraftfulla monolitiska transformatormodellen som har tränats hittills”.

AI -modellen har 105 lager, 530 miljarder parametrar och fungerar på tjock superdatorhårdvara som Selene.

Som jämförelse har den berömda GPT-3 175 miljarder parametrar.

“Varje modellreplika sträcker sig över 280 NVIDIA A100 GPU: er, med 8-vägs tensor-skivning i en nod och 35-vägs pipeline-parallellitet över noder”, sa paret i ett blogginlägg.

Modellen utbildades på 15 datamängder som innehöll 339 miljarder tokens och kunde visa hur större modeller behöver mindre utbildning för att fungera bra.

Behovet av att arbeta med språk och prover från den verkliga världen innebar dock att ett gammalt problem med AI återkom: Bias.

“Medan gigantiska språkmodeller utvecklar det senaste inom språkgenerering, lider de också av frågor som fördomar och toxicitet”, säger duon.

“Våra observationer med MT-NLG är att modellen hämtar stereotyper och fördomar från data som den är utbildad på. Microsoft och Nvidia är engagerade i att arbeta med att lösa detta problem.

” Våra observationer med MT- NLG är att modellen plockar upp stereotyper och fördomar från data som den tränas på. Microsoft och Nvidia har åtagit sig att arbeta med att lösa detta problem. “

Det var inte så länge sedan Microsoft fick sin chatbot Tay att bli full nazist på några timmar genom att interagera på internet.

Relaterad täckning

AI-driven app Natural erbjuder nytt gränssnitt för konsumenttransaktioner Se upp, GPT-3, här kommer AI21: s 'Jurassic' språkmodellOpenAI föreslår öppen källkod Triton-språk som ett alternativ till Nvidias CUDAHow AI och 5G kommer att driva nästa våg av innovation AI-industrin, besatt med hastighet, är avsky att överväga energikostnaden i senaste MLPerf benchmarkOpenAI säger “Hej, värld!” med privat beta för Codex kodgenereringsverktyg

Relaterade ämnen:

Hårdvara Digital Transformation CXO Internet of Things Innovation Enterprise Software  Chris Duckett

Av Chris Duckett | 12 oktober 2021 | Ämne: Artificiell intelligens