Meta's GenAI beveger seg fra enkle spådommer til et sjakkspill med konsekvenser

0
43

Et skjema over Metas tilnærming til det som kalles multi-token prediksjon. Under trening av AI-modellen mates inputene inn som vanlig, men i stedet for at AI-modellen trenes til å produsere et enkelt token som respons – det nest mest sannsynlige ordet, for eksempel – trenes modellen til å generere fire eller flere samtidig. sannsynlige tokens.

Meta

Generativ kunstig intelligens som GPT-4 har forbløffet oss alle med evnen til å produsere tekstutdata som ligner tanker, for eksempel svar på flervalgsspørsmål. Men å nå "høyre" tanke, som å svare på spørsmålet, forblir et dypere problem, noe som fremgår av fenomenet “hallusinasjoner”," hvor AI-modeller vil hevde  — med tilsynelatende selvtillit — falske utsagn.

I et nytt arbeid har forskere ved Meta tilpasset store språkmodeller (LLMs) for å produsere utdata som kan være mer korrekte i en gitt situasjon, ved å introdusere begrepet av straffer for feil svar. 

Også: Metas 's 'beskjæring' av Llama 2-modellen viser veien til slankere AI

Tilnærmingen, kjent som "multi-token prediksjon," søker å innføre AI-modellen en kostnad for mindre ønskelige svar. I den forstand er det analogt med populære tilnærminger for å etablere autovern i AI, for eksempel “forsterkning som lærer fra menneskelig tilbakemelding”, eller RLHF, en metode OpenAI popularisert for å dempe de mest opprørende utgangene av ChatGPT. 

(En “AI-modell” er en del av et AI-program som inneholder en rekke nevrale nettparametere og aktiveringsfunksjoner som er nøkkelelementene for et AI-programs funksjoner.)

"Gevinsten er spesielt uttalt på generative benchmarks som koding, der modellene våre konsekvent overgår sterke grunnlinjer med flere prosentpoeng," skriver forfatterne av "Bedre & Raskere store språkmodeller via Multi-token Prediction." Hovedforfatter Fabian Gloeckle, sammen med kolleger ved Facebook AI Research og samarbeidende institusjoner CERMICS Ecole des Ponts ParisTech og LISN Université Paris-Saclay, la ut avisen forrige måned på arXiv pre-print server.

Forfatterne' Den viktigste bekymringen er at LLM-er – til tross for deres imponerende prestasjoner – ikke oppnår ting som resonnement eller planlegging. Den konvensjonelle tilnærmingen til ChatGPT og resten, kalt “next-token prediction”," de skriver, “forblir en ineffektiv måte å tilegne seg språk, verdenskunnskap og resonneringsevner.”

I stedet for enkel neste-token-prediksjon, der AI-modellen er trent til å forutsi et enkelt “token”," for eksempel et ord eller tegn i en streng med symboler — for eksempel det neste ordet i en setning — Meta-teamets multi-token-versjon er opplært til å forutsi flere tokens med tekst samtidig, som hver kan være den riktige fullføringen av sekvensen. 

Teknisk sett endrer Gloeckle og teamet den grunnleggende strukturen til LLM, kjent som The Transformer, slik at den har fire utgående “hoder” som hver produserer et ord eller tegn eller annet symbol, i stedet for standard enkelthode.

Tilnærmingens umiddelbare fordel er at den kan være mer minneeffektiv når AI-modellen er live, og gir spådommer for brukere, kjent som inferensstadiet til AI. Fordi flere utgangshoder kan jobbe bak kulissene for å prøve muligheter, kan en høy grad av parallellitet skje. Denne formen for  "spekulativ dekoding" betyr at multi-token-tilnærmingen “kan fremskynde inferens med en faktor på 3×” kontra å forutsi én ting om gangen.

Dessuten: Meta avslører andre generasjons AI-trening og inferensbrikke

Men det er en dypere innsikt. Normale AI-modeller som velger ett token om gangen er – på en måte – flate: De ser ikke på noen enkelt prediksjon som viktigere enn den forrige, så lenge den nåværende prediksjonen er god. < /p>

Faktisk, bemerker teamet, er det en stor forskjell mellom visse tokens i en frase. I det ofte siterte tegnsettingsmemet — “stopp å klubbe, babyseler” — Tilstedeværelsen eller fraværet av et komma i den midterste setningen er forskjellen mellom en presserende bønn om dyrs rettigheter og et morsomt bilde. Humoren i ytringen spiller i sinnet fordi kommaet endrer setningens semantikk.

Poenget, som andre har observert, er at “ikke alle symbolske avgjørelser er like viktige for å generere nyttige tekster fra språkmodeller," skriv Gloeckle og team. 

“Selv om noen symboler tillater stilistiske variasjoner som ikke begrenser resten av teksten, representerer andre valgpunkter som er knyttet til tekstens semantiske egenskaper på høyere nivå og kan avgjøre om et svar oppfattes som nyttig eller avsporende.” /p>

Også: Rote-automatisering var slik i fjor: AI presser mer intelligens inn i programvareutvikling

Multi-head, multi-token-tilnærmingen, skriver de, tildeler fitness til hver prediksjon basert på de andre samtidige spådommene. “Generelt tror vi at kvaliteten på tekstgenereringer avhenger av å velge de riktige avgjørelsene på valgpunkter, og at n-token prediksjonstap fremmer disse,”" skriver de.

"valgpunktet" involverer de øyeblikkene der en spådom involverer andre på veien som kan lage eller bryte den totale frasen. "Multi-token-prediksjon tildeler implisitt vekter til treningssymboler avhengig av hvor nært de er korrelert med deres etterfølgere," de skriver.

I analogi sammenligner Gloeckle og team å velge det neste ordet med å bevege seg gjennom en labyrint: Hvert valg kan være en rute til belønningen, eller en rute til en forferdelig skjebne. 

De bruker bildet av en labyrint for å illustrere “sekvensiell prediksjonsoppgave” (som de refererer til å forutsi neste ord). Det neste riktige trinnet kan være et sentralt som sender AI-modellen på rett vei eller feil vei — et “konsekvensvalg”," som de kaller det.

meta-2024-choice-points-in-language-models.png

Å velge det neste riktige tokenet er som å gå gjennom en labyrint, skriver forfatterne: i visse øyeblikk er valget en “konsekvens” en som vil sende programmet til suksess (trofeet) eller nederlag (hodeskalle og korsben.) 

Meta

I en slående blanding av teknologier kobler forfatterne sammen multi-tokenet tilnærming til RLHF-tilnærmingen, og prøver å forutsi en belønning langt ned i linjen: "Anta at språkmodellen er utplassert i en forsterkende læringssetting som i forsterkende læring fra menneskelig tilbakemelding … [der] handlinger er enkle tokens […] å generere." 

Å koble tekstprediksjon til belønningsfunksjoner på den måten bringer i spill alle områdene der belønningsfunksjoner har gjort store fremskritt i spill. Belønningsfunksjoner brukes i alle slags AI-problemer som kalles forsterkningslæring, ikke bare RLHF. 

For eksempel brukte Googles DeepMind-enhet forsterkningslæring for å utvikle AlphaZero, programmet som kan slå mennesker i sjakk og gå. Den ble også brukt i programmet AlphaStar for å konkurrere i ferdighetskonkurranser i videospill mot mennesker i sanntidsstrategispillet StarCraft II.

Dessuten: Snowflake sier at dets nye LLM overgår Meta's Llama 3 på halvparten av treningen

Denne gamification har det umiddelbare resultatet av å produsere en mer " ;optimal" svar fra multi-token-tilnærmingen. Forfatterne gir en rekke referanseresultater. En sammenligner for eksempel hvordan en AI-modell med 7 milliarder nevrale parametere, eller vekter, forbedrer ytelsen når den går fra enkelt- til multi-token-prediksjon. 

På en test kalt "Mostly Basic Programming Problemer," eller, MBPP, utviklet hos Google i 2021, en AI-modell må produsere kode som linjer med Python for en gitt funksjon. På den referansen oppnår programmet alltid større nøyaktighet med multi-token prediksjon. 

Det er imidlertid også en sweet spot. AI-modellen ser ut til å fungere best på fire samtidige tokens, mens å forutsi mer enn det – seks eller åtte – fører til resultater som ikke er like gode som fire tokens. 

meta-2024-benchmark-results-for-multi-token-prediction.png

På standardiserte tester som "Mostly Basic Programming Problemer," der en LLM må generere programmeringskode, oppnår den samme store AI-modellen, en med syv milliarder nevrale parametere, eller vekter, større nøyaktighet når flere tokens produseres, som indikert med “n”," antall tokens som genereres samtidig.

Meta

Som med mange ting i nevrale nettverk, er det ikke umiddelbart sikkert hvorfor multi-token-prediksjon skal være bedre enn enkelt-token-prediksjon. Fornemmelsen forfatterne gir er at ved å trene en modell for multi-token prediksjon, unngår den resulterende modellen en frakobling som skjer når AI-modellen gjør live spådommer med ekte spørsmål fra brukere. Det er det som kalles et “distribusjonsmisforhold mellom lærertvungen opplæring og autoregressiv generering.”

Også: Du kan tjene store penger på AI – men bare hvis folk stoler på dataene dine

Det er fortsatt mange ting å finne ut av, skriver Gloeckle og kollegene. Et mål er å utvikle en metode for å automatisere sweet spot, det optimale antallet samtidige tokens som fører til størst nøyaktighet. En annen er hvordan man automatisk bestemmer riktig mengde data som trengs for å trene AI-modellen, gitt at “optimale ordforrådsstørrelser for multi-token-prediksjon sannsynligvis er forskjellige fra de for neste-token-prediksjon, og innstilling av dem kan føre til bedre resultater. "

En større takeaway er at tradisjonell forsterkende læring kan ha mye mer å tilby generativ AI enn mange har mistenkt til dags dato, noe som antyder at det vil være mer fusjon av de to metodene på veien.