DeepMind testar gränserna för stora AI-språksystem med en modell med 280 miljarder parametrar

0
168

Språkgenerering är det hetaste inom AI just nu, med en klass av system som kallas “stora språkmodeller” (eller LLM) som används för allt från att förbättra Googles sökmotor till att skapa textbaserad fantasi spel. Men de här programmen har också allvarliga problem, inklusive uppstötande av sexistiskt och rasistiskt språk och misslyckade tester av logiskt resonemang. En stor fråga är: kan dessa svagheter förbättras genom att helt enkelt lägga till mer data och datorkraft, eller når vi gränserna för detta tekniska paradigm?

Detta är ett av ämnena som Alphabets AI-labb DeepMind tar itu med i en trio av forskningsartiklar som publiceras idag. Företagets slutsats är att uppskalning av dessa system ytterligare borde ge många förbättringar. “En viktig upptäckt av uppsatsen är att framstegen och kapaciteten hos stora språkmodeller fortfarande ökar. Det här är inte ett område som har platåerats, sa Jack Rae, forskare i DeepMind, till reportrar i ett informationssamtal.

“Det här är inte ett område som har platågat.”

DeepMind, som regelbundet matar in sitt arbete i Googles produkter, har undersökt kapaciteten hos denna LLM genom att bygga en språkmodell med 280 miljarder parametrar som heter Gopher. Parametrar är ett snabbt mått på ett språks modellstorlek och komplexitet, vilket innebär att Gopher är större än OpenAI:s GPT-3 (175 miljarder parametrar) men inte lika stor som vissa mer experimentella system, som Microsoft och Nvidias Megatron-modell (530 miljarder parametrar).

Det är i allmänhet sant i AI-världen att större är bättre, med större modeller som vanligtvis erbjuder högre prestanda. DeepMinds forskning bekräftar denna trend och tyder på att uppskalning av LLM:er ger förbättrad prestanda på de vanligaste benchmarks som testar saker som sentimentanalys och sammanfattning. Men forskare varnade också för att vissa problem som är inneboende i språkmodeller kommer att behöva mer än bara data och beräkning för att fixa.

“Jag tycker just nu att det verkligen ser ut som att modellen kan misslyckas på olika sätt,” sa Rae. “Någon delmängd av dessa sätt beror på att modellen helt enkelt inte har tillräckligt bra förståelse för vad den läser, och jag känner att för den typen av problem kommer vi bara att se förbättrad prestanda med mer data och skala.”< /p> Alla problem med AI-språksystem kan inte lösas med skala

Men, tillade han, det finns “andra kategorier av problem, som modellen som vidmakthåller stereotypa fördomar eller modellen som lockas till att ge missanningar, som […] ingen på DeepMind tror att skala kommer att vara lösningen [till].” I dessa fall kommer språkmodeller att behöva “ytterligare träningsrutiner” som feedback från mänskliga användare, noterade han.

För att komma till dessa slutsatser utvärderade DeepMinds forskare en rad olika språkmodeller av olika storlekar på 152 språkuppgifter eller riktmärken. De fann att större modeller generellt gav förbättrade resultat, där Gopher själv erbjuder toppmodern prestanda på ungefär 80 procent av testerna som valts ut av forskarna.

I ett annat dokument undersökte företaget också det breda utbudet av potentiella skador som är involverade i att distribuera LLM:er. Dessa inkluderar systemens användning av giftigt språk, deras förmåga att dela felaktig information och deras potential att användas för skadliga syften, som att dela spam eller propaganda. Alla dessa frågor kommer att bli allt viktigare i takt med att AI-språkmodeller blir mer utbredda – som chatbotar och försäljningsagenter, till exempel.

Det är dock värt att komma ihåg att prestanda på riktmärken inte är det viktigaste när det gäller att utvärdera maskininlärningssystem. I en ny artikel undersökte ett antal AI-forskare (inklusive två från Google) begränsningarna för benchmarks, och noterade att dessa datauppsättningar alltid kommer att vara begränsade i omfattning och oförmögna att matcha komplexiteten i den verkliga världen. Som ofta är fallet med ny teknik är det enda pålitliga sättet att testa dessa system att se hur de presterar i verkligheten. Med stora språkmodeller kommer vi att se fler av dessa applikationer mycket snart.