Dagens store språkmodeller (LLM) har begrensninger på hvor mye informasjon du kan legge inn før de gir deg et resultat. Google har avduket en måte å endre det på: en metode som lar LLM-er akseptere en uendelig mengde tekst. Teknikken, kalt Infini-attention, fungerer uten å ofre minne og beregningskraft, og skaper et mer effektivt – og potensielt slagkraftig – LLM-resultat.
“Et effektivt minnesystem er avgjørende ikke bare for å forstå lange sammenhenger med LLM-er, men også for resonnement, planlegging, kontinuerlig tilpasning for ny kunnskap, og til og med for å lære hvordan man lærer,”" forfatterne skrev i en forskningsartikkel som fulgte med kunngjøringen deres.
Kontekstvinduer spiller en sentral rolle i hvordan LLM-er fungerer, og når dette skrives, alle populære AI-modeller, inkludert OpenAIs GPT-4& #xA0;og Anthropic's Claude 3, har et begrenset kontekstvindu. Claude 3, for eksempel, tillater opptil 200 000 tokens, eller alfanumeriske tegn, i en enkelt spørring. GPT-4s kontekstvindu tillater 128 000 tokens.
Også: Hva er Gemini? Alt du bør vite om Googles nye AI-modell
Kontekstvinduet betyr mye for LLM-er. Jo flere tokens som er tillatt i kontekstvinduet, desto flere data kan brukerne legge inn for å generere ønsket resultat. LLM-skapere prøver derfor å øke antallet tokens med hver ny iterasjon for å gjøre modellene deres mer effektive til å lære, forstå og levere resultater.
For å gjøre det, må teknologiselskaper imidlertid imøtekomme krav til minne og databehandling. Med hver dobling av en LLMs kontekstvindu øker minnet og beregningskravene med en faktor på fire, skrev Google-forskerne. Hver økning i minne og beregningskraft er naturligvis ikke bare ressurskrevende, men ekstremt dyr.
Googles Infini-attention løser dette problemet ved å bruke eksisterende minne og beregningskrav. Når forskerne legger inn ytterligere detaljer i et kontekstvindu utover begrensningene til modellene de testet, overførte de alle data opp til grensen til det som kalles “komprimerende minne”. og fjernet det fra aktivt minne, som deretter ble frigjort for den ekstra konteksten. Når alle dataene var lagt inn, var modellen i stand til å pare det komprimerende minnet med alle inngangene i det aktive minnet for å levere en respons. Denne teknikken muliggjør “en naturlig utvidelse av eksisterende LLM-er til uendelig lange sammenhenger via kontinuerlig forhåndstrening og finjustering”," skrev forskerne.
Bevæpnet med evnen til å sette så mye kontekst inn i modellene de ønsket, sammenlignet forskerne deres Infini-oppmerksomhetsteknikk med eksisterende LLM-er og fant at deres alternativ var overlegen. “Vår tilnærming kan naturlig skaleres til en million lengde regime av input-sekvenser, samtidig som den overgår basislinjene for langkontekstspråkmodelleringsbenchmark og bokoppsummeringsoppgaver,”" skrev forskerne.
Forskerne delte ikke sine data eller bevis på at metoden deres faktisk gir bedre resultater enn eksisterende modeller. Det er imidlertid naturlig at hvis de kan eliminere kontekstvindusbegrensninger, bør modeller utstyrt med denne teknikken overgå de med begrensninger på plass.
Googles teknikk kan bane vei for dramatiske forbedringer i LLM-ytelsen , slik at bedrifter kan lage nye applikasjoner, generere ytterligere innsikt og mer. For nå er imidlertid Infini-oppmerksomhet rent forskning. Det er uklart om teknikken vil finne veien til bredt tilgjengelige LLM-er.