
Oversikt over RAG henvendt seg brukt av Heidelberg-forskere.
Heidelberg Universitetssykehus
Generativ kunstig intelligens (AI) har vist en bemerkelsesverdig evne til å svare på spørsmål på strukturerte tester, inkludert å oppnå godt over en bestått poengsum på United States Medical Licensing Examination.
Men i en ustrukturerte omgivelser, når AI-modellene mates med en strøm av nye spørsmål laget av mennesker, kan resultatene være forferdelige, modellene returnerer ofte flere unøyaktige eller direkte falske påstander, i fenomenet kjent som 'hallusinasjoner.
< p>Også: Hvordan GenAI ble mye bedre på medisinske spørsmål – takket være RAG
Forskere ved Heidelberg universitetssykehus i Heidelberg, Tyskland, rapporterte i det prestisjetunge New England Journal of Medicine (NEJM) denne uken at å koble generative AI-modeller til en database med relevant informasjon forbedret modellens evne til å svare på ustrukturerte spørsmål i domenet betydelig. av onkologi, behandling av kreft.
Tilnærmingen med gjenfinning-augmented generation (RAG), som lar de store språkmodellene ta seg inn i eksterne informasjonskilder, forbedret den spontane spørsmålsbesvarelsen dramatisk, ifølge forfatterne Dyke Ferber og teamet ved Heidelberg i en studie de beskriver denne uken i NEJM , "GPT-4 for informasjonsinnhenting og sammenligning av medisinske onkologiske retningslinjer." (Et abonnement på NEJM kreves for å lese hele rapporten.)
Også: OpenAI ga nettopp gratis ChatGPT-brukere surfing, dataanalyse og mer
Studien ble foranlediget av det faktum at medisin står overfor en unik informasjonsoverbelastning – det er flere anbefalinger for beste praksis som genereres hele tiden av medisinske fagorganisasjoner. Å holde seg oppdatert på disse forslagene belaster leger som prøver å håndtere en befolkning som lever lenger og øker behovet for omsorg.
Grupper som American Society of Clinical Oncology (ASCO), Ferber og teamrelaterte, "utgir oppdaterte retningslinjer i økende grad," som krever at leger “sammenligner flere dokumenter for å finne den optimale behandlingen for sine pasienter, en innsats i klinisk praksis som er satt til å bli mer krevende og utbredt, spesielt med den forventede globale mangelen på onkologer.”
Ferber og teamet antok at en AI-assistent kunne hjelpe klinikere med å sortere gjennom den ekspanderende litteraturen.
De fant faktisk ut at GPT-4 kan nå nivåer av nøyaktighet med RAG tilstrekkelig til å tjene i det minste som en slags første bestå ved å oppsummere relevante anbefalinger, og dermed lette den administrative byrden for leger.
Også: Dana-Farber Cancer Institute finner at de viktigste GPT-4-bekymringene inkluderer usannheter, høye kostnader
Forfatterne testet OpenAIs GPT-4 ved å ha eksperter på menneskelig onkologi sender inn 30 “klinisk relevante spørsmål” om kreft i bukspyttkjertelen, metastatisk tykktarmskreft og hepatocellulært karsinom, og la modellen produsere en rapport som svar med uttalelser om anbefalte behandlingsmetoder.
Resultatene var katastrofale for GPT-4 alene. Når du blir bedt om å "gi detaljert og sannferdig informasjon" som svar på de 30 spørsmålene var modellen feil 47 % av gangene, med 29 av 163 påstander som var unøyaktige, gjennomgått av to trente klinikere med mange års erfaring, og 41 påstander var feil.
"Disse resultatene ble markant forbedret når dokumentinnhenting med RAG ble brukt," rapporterte forfatterne. GPT-4 ved bruk av RAG nådde 84 % nøyaktighet i sine uttalelser, med 60 av 71, 62 av 75 og 62 av 72 korrekte svar på de tre kreftområdene dekket i de 30 spørsmålene.
"Vi viste at forbedring av GPT-4 med RAG betraktelig forbedret GPT-4s evne til å gi korrekte svar på forespørsler i medisinsk sammenheng," skrev Ferber og teamet, “som overgår en standard tilnærming når du bruker GPT-4 uten utvidelse av gjenfinning.”
For å sammenligne native GPT-4 til GPT-4 med RAG, brukte de to promptestrategier. I sin opprinnelige, ikke-RAG-form, ble GPT-4 spurt, “Basert på det du har lært fra medisinske onkologiske retningslinjer, gi detaljert og sannferdig informasjon som svar på henvendelser fra en lege,”" og så et av spørsmålene om hvordan man behandler en bestemt krefttilfelle.
Også: MedPerf har som mål å øke hastigheten på medisinsk AI samtidig som data holdes private< /p>
GPT-4 i denne native prompten ble brukt både med det som kalles “zero-shot”; spørsmålssvar, hvor kun ledetekstspørsmålet tilbys, deretter med fåspørsmål, hvor et dokument settes inn i ledeteksten, og modellen vises hvordan dokumentet kan svare på et lignende spørsmål.
< figure class="c-shortcodeImage u-clearfix c-shortcodeImage-large c-shortcodeImage-hasCaption">
En RAG-tilnærming lar GPT-4 benytte seg av en database med klinisk kunnskap.< /p> Heidelberg universitetssykehus
I RAG-tilnærmingen dirigerer ledeteksten GPT-4 til å hente “biter” av relevante medisinske dokumenter levert av ASCO og European Society for Medical Oncology (ESMO) fra en database. Deretter må modellen svare på en uttalelse som “Hva sier dokumentene om førstelinjebehandling ved metastaserende MSI-svulster?”
De to humane klinikerne ved Heidelberg Universitetssykehus scoret svarene for nøyaktighet ved å manuelt sammenligne GPT-4s svar på de medfølgende dokumentene.
"De dekonstruerte systematisk hvert svar til diskrete utsagn basert på punktene gitt av GPT-4," skrev Ferber og team.
“Hver utsagn ble nøye evaluert i henhold til dens justering med den respektive informasjonen fra ASCO- og ESMO-dokumentene,”" og "for hvert spørsmål utførte klinikerne en detaljert manuell gjennomgang av retningslinjene som tilsvarer hvert spørsmål for å definere vår grunnleggende sannhet."
Også: Googles MedPaLM legger vekt på menneskelige klinikere innen medisinsk AI
Den manuelle evalueringen viser et viktig aspekt ved RAG-tilnærmingen, bemerket Ferber og teamet: den kan sjekkes. "Ved å gi tilgang til de hentede retningslinjedokumentene, forenklet RAG-mekanismen nøyaktighetsverifisering, ettersom klinikere raskt kunne slå opp informasjonen i dokumentdelen," skrev de.
Konklusjonen er lovende: "Vår modell kan allerede fungere som et forhåndsscreeningsverktøy for brukere som onkologer med domeneekspertise," skriv Ferber og team.
Det er imidlertid begrensninger for RAG. Når GPT-4 brukte RAG for å hente relevante avsnitt som ga motstridende råd om behandling, svarte modellen noen ganger med unøyaktige forslag.
"I tilfeller der GPT-4 må behandle informasjon fra motstridende uttalelser (kliniske studier, ekspertsyn og komitéanbefalinger), var vår nåværende modell ikke tilstrekkelig til å gi pålitelige nøyaktige svar," skriv Ferber og teamet.
Det viser seg at du fortsatt må gjøre litt ingeniørarbeid. Ferber og teamet klarte å dempe unøyaktigheter ved å be GPT-4 identifisere de motstridende meningene i litteraturen, og deretter gi et revidert svar, som viste seg å være korrekt.