Mye av interessen rundt kunstig intelligens (AI) er fanget opp med kampen om konkurrerende AI-modeller på benchmark-tester eller nye såkalte multimodale evner.
OpenAI kunngjør en videofunksjon, Sora, som overrasker verden, Google svarer med Geminis evne til å velge ut en videoramme, og programvarefellesskapet med åpen kildekode avslører raskt nye tilnærminger som går forbi de dominerende kommersielle programmene med større effektivitet.
Også: OpenAI trener GPT-4s etterfølger. Her er 3 store oppgraderinger du kan forvente fra GPT-5
Men brukere av Gen AIs store språkmodeller, spesielt bedrifter, kan bry seg mer om en balansert tilnærming som gir gyldige svar raskt.
Et voksende arbeid foreslår at teknologien for gjenvinningsutvidet generasjon, eller RAG, kan være sentral i utformingen av kampen mellom store språkmodeller (LLMs).
RAG er praksisen med å la en LLM svare på en forespørsel ved å sende en forespørsel til en ekstern datakilde, for eksempel en “vektordatabase”, og hente autoritative data. Den vanligste bruken av RAG er å redusere tilbøyeligheten til LLM-er til å produsere “hallusinasjoner”, der en modell hevder usannheter trygt.
Også: Svetter OpenAI? 9 Google-funksjoner annonsert for Gemini, Search, Android og mer
Kommersielle programvareleverandører, for eksempel søkeprogramvareprodusenten Elastic, og “vector” databaseleverandøren Pinecone, skynder seg å selge programmer som lar bedrifter koble seg til databaser og hente autoritative svar basert på for eksempel et selskaps produktdata.
Hva som hentes kan ta mange former, inkludert dokumenter fra en dokumentdatabase, bilder fra en bildefil eller video, eller kodebiter fra et kodelager for programvareutvikling.
Det som allerede er klart er at gjenfinningsparadigmet vil spre seg vidt og bredt til alle LLM-er, både for kommersiell og forbrukerbruk. Hvert generativt AI-program vil ha hekter på eksterne informasjonskilder.
I dag kan denne prosessen oppnås med funksjonskall, som OpenAI og Anthropic tilbyr for henholdsvis GPT- og Claude-programmene sine. Disse enkle mekanismene gir begrenset tilgang til data for begrensede forespørsler, for eksempel å få det gjeldende været i en by.
Funksjonsanrop vil sannsynligvis måtte smelte sammen med, eller bli erstattet, av RAG noen ganger punkt for å utvide det LLM-er kan tilby som svar.
Dette skiftet innebærer at RAG vil bli vanlig i hvordan de fleste AI-modeller presterer.
Også: Pinecones administrerende direktør er på en søken etter å gi AI noe sånt som kunnskap
Og den prominensen reiser problemer. I denne riktignok tidlige fasen av RAGs utvikling, presterer forskjellige LLM-er forskjellig når de bruker RAG, og gjør en bedre eller dårligere jobb med å håndtere informasjonen som RAG-programvaren sender tilbake til LLM fra databasen. Denne forskjellen betyr at RAG blir en ny faktor i nøyaktigheten og nytten av LLM-er.
RAG, selv så tidlig som den innledende opplæringsfasen av AI-modeller, kan begynne å påvirke designhensynene for LLMs. Til nå har AI-modeller blitt utviklet i et vakuum, bygget som uberørte vitenskapelige eksperimenter som har liten tilknytning til resten av datavitenskapen.
Det kan være et mye tettere forhold i fremtiden mellom bygging og opplæring av nevrale nett for generativ AI og nedstrømsverktøyene til RAG som vil spille en rolle i ytelse og nøyaktighet.
Fallfallene til LLM-er med gjenfinning&# xA0;
Det å bare bruke RAG har vist seg å øke nøyaktigheten til LLM-er, men det kan også skape nye problemer.
For eksempel hva som kommer ut av en database kan føre LLM-er inn i konflikter som deretter løses av ytterligere hallusinasjoner.
Også: Jeg har testet dusinvis av AI-chatboter siden ChatGPTs debut. Her er mitt nye toppvalg
I en rapport i mars fant forskere ved University of Maryland at GPT-3.5 kan feile selv etter å ha hentet data via RAG.
"RAG-systemet kan fortsatt slite med å gi nøyaktig informasjon til brukere i tilfeller der den angitte konteksten faller utenfor rekkevidden av modellens opplæringsdata," de skriver. LLM ville til tider “generere troverdige hallusinasjoner ved å interpolere mellom faktainnhold.”
Forskere finner ut at designvalg av LLM-er kan påvirke hvordan de presterer med henting, inkludert kvaliteten på svarene som er mottatt.
En studie denne måneden av forskere ved Peking University bemerket at “den innføring av gjenfinning øker uunngåelig systemkompleksiteten og antall hyperparametere som skal justeres," hvor hyperparametere er valg som er tatt om hvordan man trener LLM.
For eksempel, når en modell velger fra flere mulige “tokens”, inkludert hvilke tokens å velge fra RAG-dataene, kan man ringe opp eller ned hvor bredt den søker, altså hvor stor eller smal en pool av tokens å velge mellom.& #xA0;
Velge av en liten gruppe, kjent som “top-k sampling”, ble funnet av Peking-lærde for å “forbedre attribusjon, men skade flytende”," slik at det som får tilbake av brukeren har avveininger i kvalitet, relevans og mer.
Fordi RAG dramatisk kan utvide det såkalte kontekstvinduet, antall totale tegn eller ord en LLM må håndtere, kan bruk av RAG gjøre en modells kontekstvindu til et større problem enn det ville vært.
Også: De beste AI-bildegeneratorene: Testet og gjennomgått
Noen LLM-er kan håndtere mange flere tokens — i størrelsesorden en million, for Tvillingene — noen langt mindre. Dette faktum alene kan gjøre noen LLM-er bedre til å håndtere RAG enn andre.
Begge eksemplene, hyperparametere og kontekstlengde som påvirker resultatene, stammer fra det bredere faktum at, som Peking-forskerne observerer, har RAG og LLM hver “distinkte mål”. De ble ikke bygget sammen, de blir boltet sammen.
Det kan hende at RAG vil utvikle seg mer "avansert" teknikker for å tilpasse seg LLM-er bedre, eller det kan hende at LLM-design må begynne å innlemme valg som imøtekommer RAG tidligere i utviklingen av modellen.
Prøver å gjøre LLM-er smartere på RAG
h2>
Forskere bruker i disse dager mye tid på å studere i detalj feiltilfeller av RAG-aktiverte LLM-er, delvis for å stille et grunnleggende spørsmål: hva mangler i selve LLM-en som snubler ting?
Forskere hos det kinesiske meldingsfirmaet WeChat beskrev i en forskningsartikkel i februar hvordan LLM-er ikke alltid vet hvordan de skal håndtere dataene de henter fra databasen. En modell kan spytte tilbake ufullstendig informasjon gitt til den av RAG.
Også: OpenAI ga nettopp gratis ChatGPT-brukere surfing, dataanalyse og mer
"Nøkkelårsaken er at opplæringen av LLM-er ikke tydeligvis får LLM-ere til å lære å bruke inndata hentede tekster med variert kvalitet," skriver Shicheng Xu og kollegaer.
For å håndtere dette problemet foreslår de en spesiell treningsmetode for AI-modeller de kaller “en informasjonsraffineringstreningsmetode” kalt INFO-RAG, som de viser kan forbedre nøyaktigheten til LLM-er som bruker RAG-data.
Tanken med INFO-RAG er å bruke data hentet med RAG på forhånd, som opplæringsmetode for selve LLM. Et nytt datasett er hentet fra Wikipedia-oppføringer, delt opp i setningsstykker, og modellen er trent til å forutsi den siste delen av en setning hentet fra RAG ved å få den første delen.
Derfor, INFO-RAG er et eksempel på opplæring av en LLM med RAG i tankene. Flere opplæringsmetoder vil trolig inkludere RAG fra begynnelsen, siden det i mange sammenhenger er det man ønsker at LLM skal gjøre bruk av RAG.
Mer subtile aspekter av RAG- og LLM-samspillet begynner å dukke opp. Forskere ved programvareprodusenten ServiceNow beskrev i april hvordan de kunne bruke RAG til å stole på mindre LLM-er, noe som strider mot forestillingen om at jo større en stor språkmodell, jo bedre.
"En brønn -trent retriever kan redusere størrelsen på den medfølgende LLM uten tap i ytelse, og dermed gjøre distribusjoner av LLM-baserte systemer mindre ressurskrevende," skriver Patrice Béchard og Orlando Marquez Ayala.
Også: Hva er Copilot (tidligere Bing Chat)? Her er alt du trenger å vite
Hvis RAG i vesentlig grad muliggjør størrelsesreduksjon for mange brukstilfeller, kan det tenkes å vippe fokuset for LLM-utvikling bort fra paradigmet for størrelse for enhver pris til dagens stadig større modeller.
There er alternativer, med problemer
Det mest fremtredende alternativet er finjustering, der AI-modellen omskoleres, etter den første treningen, ved å bruke et mer fokusert treningsdatasett. Den opplæringen kan gi nye evner til AI-modellen. Denne tilnærmingen har fordelen av å produsere en modell som kan bruke spesifikk kunnskap kodet i sine nevrale vekter uten å stole på tilgang til en database via RAG.
Men det er problemer spesielt med finjustering også. Google-forskere beskrev denne måneden at det er problematiske fenomener innen finjustering, slik som “forvirringsforbannelsen”, der AI-modellen ikke kan huske den nødvendige informasjonen hvis den er begravd for dypt i et opplæringsdokument.
Dette problemet er et teknisk aspekt ved hvordan LLM-er i utgangspunktet trenes og krever spesielt arbeid å overvinne. Det kan også være ytelsesproblemer med finjusterte AI-modeller som forringer hvor godt de presterer i forhold til en vanlig vanilje LLM.
Finjustering innebærer også å ha tilgang til språkmodellkoden for å trene den på nytt, noe som er et problem for de som ikke har tilgang til kildekode, for eksempel klientene til OpenAI eller en annen kommersiell leverandør.
< p>Også: Dette gratisverktøyet fra Anthropic hjelper deg med å lage bedre AI-meldinger
Som nevnt tidligere, gir funksjonsanrop i dag en enkel måte for GPT eller Claude LLMs å svare på enkle spørsmål. LLM konverterer et naturlig språksøk som “Hva er været i New York City?” til et strukturert format med parametere, inkludert navn og en “temperatur” objekt.
Disse parameterne sendes til en hjelpeapp utpekt av programmereren, og hjelperappen svarer med nøyaktig informasjon, som LLM deretter formaterer til et naturlig språksvar, som f.eks. : “Det er for øyeblikket 76 grader Fahrenheit i New York City.”
Men den strukturerte spørringen begrenser hva en bruker kan gjøre eller hva en LLM kan få til å absorbere som et eksempel i ledeteksten. Den virkelige kraften til en LLM bør være å sende ethvert søk på naturlig språk og bruke det til å trekke ut riktig informasjon fra en database.
En enklere tilnærming enn enten finjustering eller funksjonsanrop er kjent som in- kontekstlæring, noe de fleste LLM-er gjør uansett. Kontekstlæring innebærer å presentere spørsmål med eksempler som gir modellen en demonstrasjon som forbedrer hva modellen kan gjøre i etterkant.
In-context learning-tilnærmingen har blitt utvidet til noe som kalles in-context knowledge editing (IKE), der spørsmål via demonstrasjoner forsøker å dytte språkmodellen til å beholde et bestemt faktum, slik som “Joe Biden”, i konteksten til et søk, for eksempel “Hvem er USAs president?”
IKE-tilnærmingen kan imidlertid fortsatt innebære en del RAG-bruk, siden den må hente fakta fra et sted. Å stole på ledeteksten kan gjøre IKE noe skjør, siden det ikke er noen garanti for at de nye faktaene vil forbli innenfor den lagrede informasjonen til LLM.
Veien videre
Det tilsynelatende miraklet med ChatGPTs ankomst i november 2022 er begynnelsen på en lang ingeniørprosess. En maskin som kan akseptere forespørsler på naturlig språk og svare på naturlig språk, må fortsatt utstyres med en måte å få nøyaktige og autoritative svar på.
At utføre en slik integrasjon reiser grunnleggende spørsmål om egnetheten til LLM-er og hvor godt de samarbeider med RAG-programmer — og omvendt.
Resultatet kan være et voksende underfelt av RAG-bevisste LLM-er, bygget fra grunnen av for å inkludere RAG- basert kunnskap. Det skiftet har store implikasjoner. Hvis RAG-kunnskap er spesifikk for et felt eller en bedrift, kan RAG-bevisste LLM-er bygges mye nærmere sluttbrukeren, i stedet for å bli opprettet som generalistprogrammer i de største AI-firmaene, som OpenAI og Google.
Det virker trygt å si at RAG er kommet for å bli, og status quo vil måtte tilpasses for å imøtekomme det, kanskje på mange forskjellige måter.