Billede: Microsoft
Nvidia og Microsoft er gået sammen om at skabe Megatron-Turing Natural Language Generation-modellen, som duoen hævder er den “mest kraftfulde monolitiske transformersprogsmodel, der er uddannet til dato”.
AI -modellen har 105 lag, 530 milliarder parametre og fungerer på chunky supercomputer hardware som Selene.
Til sammenligning har den berømte GPT-3 175 milliarder parametre.
“Hver modelreplika spænder over 280 NVIDIA A100 GPU'er med 8-vejs tensor-opskæring inden for en node og 35-vejs pipeline-parallelisme på tværs af noder,” sagde parret i et blogindlæg.
Modellen blev uddannet på 15 datasæt, der indeholdt 339 milliarder tokens, og kunne vise, hvordan større modeller har brug for mindre træning for at fungere godt.
Behovet for at operere med sprog og prøver fra den virkelige verden betød imidlertid, at et gammelt problem med AI dukkede op igen: Bias.
“Mens kæmpe sprogmodeller fremmer den nyeste teknik inden for sproggenerering, lider de også af problemer som forspænding og toksicitet,” sagde duoen.
“Vores observationer med MT-NLG er, at modellen opfanger stereotyper og fordomme fra de data, den er uddannet på. Microsoft og Nvidia er forpligtet til at arbejde på at løse dette problem.
” Vores observationer med MT- NLG er, at modellen opfanger stereotyper og skævheder fra de data, den er uddannet på. Microsoft og Nvidia er forpligtet til at arbejde på at løse dette problem. “
Det var ikke så længe siden, at Microsoft fik sin chatbot Tay til at blive fuld nazist på få timer ved at interagere på internettet.
Relateret dækning
AI-drevet app Natural tilbyder ny grænseflade til forbrugertransaktioner Pas på, GPT-3, her kommer AI21s 'Jurassic' sprogmodelOpenAI foreslår open-source Triton-sprog som et alternativ til Nvidias CUDAHow AI og 5G vil drive den næste bølge af innovation AI-industri, besat med hastighed, afskyr at overveje energiomkostningerne i den seneste MLPerf -benchmarkOpenAI siger 'Hej, verden!' med privat beta til Codex kodegenereringsværktøj
Relaterede emner:
Hardware Digital Transformation CXO Internet of Things Innovation Enterprise Software