
En oversikt over Amazons foreslåtte benchmarking-prosess for RAG-implementeringer av generativ AI.
Amazon AWS
Dette året er ment å være året da generativ kunstig intelligens (GenAI) tar av i bedriften, ifølge mange observatører. En av måtene dette kan skje på er via gjenfinningsforsterket generasjon (RAG), en metodikk der en stor AI-språkmodell kobles opp til en database som inneholder domenespesifikt innhold som firmafiler. < /p>
RAG er imidlertid en fremvoksende teknologi med sine fallgruver.
Også: Gjør plass til RAG: Hvordan Gen AIs balanse mellom makt skifter
Av den grunn foreslår forskere ved Amazons AWS i en ny artikkel å sette en serie benchmarks som spesifikt vil teste hvor godt RAG kan svare på spørsmål om domenespesifikt innhold .
“Vår metode er en automatisert, kostnadseffektiv, tolkbar og robust strategi for å velge de optimale komponentene for et RAG-system”," skrive hovedforfatter Gauthier Guinet og team i arbeidet, "Automatisert evaluering av gjenfinning-augmented Language Models with Task-Specific Exam Generation," lagt ut på arXiv preprint-serveren.
Oppgaven presenteres på den 41. internasjonale konferansen om maskinlæring, en AI-konferanse som finner sted 21.- 27. juli i Wien.
< p>Det grunnleggende problemet, forklarer Guinet og teamet, er at selv om det er mange målestokker for å sammenligne evnen til ulike store språkmodeller (LLMs) på en rekke oppgaver, er det i RAG-området, spesifikt, ingen “kanonisk”; tilnærming til måling som er "en omfattende oppgavespesifikk evaluering" av de mange egenskapene som betyr noe, inkludert "sannhet" og "faktualitet."
Forfatterne mener at deres automatiserte metode skaper en viss enhetlighet: “Ved automatisk å generere flervalgseksamener skreddersydd for dokumentkorpuset knyttet til hver oppgave, muliggjør vår tilnærming standardisert, skalerbar og tolkbar skåring av forskjellige RAG-systemer.”
For å sette i gang denne oppgaven, genererer forfatterne spørsmål-svar-par ved å trekke på materiale fra fire domener: feilsøkingsdokumentene til AWS om emnet DevOps; artikkelsammendrag av vitenskapelige artikler fra arXiv preprint-serveren; spørsmål om StackExchange; og registreringer fra US Securities & Exchange Commission, hovedregulatoren for børsnoterte selskaper.
Også: Å koble generativ AI til medisinske data forbedret nytten for leger
De utarbeider deretter flervalgstester for LLM-ene for å evaluere hvor nær hver LLM kommer til det riktige svaret. De utsetter to familier med åpen kildekode LLM-er for disse eksamenene – Mistral, fra det franske selskapet med samme navn, og Meta Properties's Llama.
De tester modellene i tre scenarier. Den første er en "lukket bok" scenario, der LLM ikke har tilgang i det hele tatt til RAG-data, og må stole på sine forhåndstrente nevrale “parametre” — eller "vekter" — for å komme med svaret. Den andre er det som kalles “Oracle” former for RAG, der LLM får tilgang til det eksakte dokumentet som brukes til å generere et spørsmål, grunnsannheten, som den er kjent.
Den tredje formen er "klassisk gjenfinning," hvor modellen må søke på tvers av hele datasettet på jakt etter et spørsmåls kontekst, ved hjelp av en rekke algoritmer. Flere populære RAG-formler brukes, inkludert en introdusert i 2019 av forskere ved Tel-Aviv University og Allen Institute for Artificial Intelligence, MultiQA; og en eldre, men veldig populær tilnærming for informasjonsinnhenting kalt BM25.
Også: Microsoft Azure får 'Models as a Service,' forbedrede RAG-tilbud for bedriftsgenerativ AI
De kjører deretter eksamenene og teller resultatene, som er tilstrekkelig komplekse til å fylle tonnevis av diagrammer og tabeller over de relative styrkene og svakhetene til LLM-ene og de forskjellige RAG-tilnærmingene. Forfatterne utfører til og med en metaanalyse av eksamensspørsmålene deres — for å måle nytten deres — basert på utdanningsfeltets velkjente “Blooms taksonomi”.
Det som betyr enda mer enn datapunkter fra eksamenene er de brede funnene som kan være sanne for RAG – uavhengig av implementeringsdetaljene.
Et bredt funn er at bedre RAG-algoritmer kan forbedre en LLM mer enn for eksempel å gjøre LLM større.
"Riktig valg av gjenfinningsmetode kan ofte føre til at ytelsesforbedringer overgår de fra bare å velge større LLM-er," de skriver.
Det er viktig gitt bekymringer over den økende ressursintensiteten til GenAI. Hvis du kan gjøre mer med mindre, er det en verdifull vei å utforske. Det tyder også på at den konvensjonelle visdommen i AI for øyeblikket, at skalering alltid er best, ikke er helt sann når det gjelder å løse konkrete problemer.
Også: Generativ AI er en ny angrepsvektor som er i fare bedrifter, sier CrowdStrike CTO
Like viktig er det at forfatterne finner at hvis RAG-algoritmen ikke fungerer riktig, kan den forringe ytelsen til LLM versus den lukkede boken vanilje. versjon uten RAG.
"Dårlig justert retriever-komponent kan føre til dårligere nøyaktighet enn å ikke ha noen henting i det hele tatt," er hvordan Guinet og team formulerte det.