OpenAI foreslår et andre nevralt nett for å fange opp ChatGPTs kodefeil

0
42

CriticGPT er en nevrale nettbasert AI-modell som kritiserer kode laget av ChatGPT og påpeker feil i koden.

OpenAI

Problemet med hallusinasjoner — kunstig intelligens (AI)-modeller som hevder usannheter under en finér av å være autoritativ — har fått noen forskere til å konkludere med at generativ AI rett og slett ikke kan oppdage eller rette opp feilene. 

I en artikkel i oktober i fjor skrev forskere ved Googles DeepMind hevdet at “LLM-er ennå ikke er i stand til å selvkorrigere resonnementet sitt.”

Dessuten: Hvis AI er så fantastisk, hvorfor smelter ChatGPT sammen over denne enkle bilderedigeringsoppgaven?

Men ChatGPT-skaperen OpenAI er uenig i denne påstanden – og i forrige uke tilbød firmaet en versjon av GPT-4, kalt CriticGPT, som den hevder kan bidra til å finne og rette feil for å forbedre den generelle nøyaktigheten til modellen.

Resultatene er oppmuntrende for menneskelige team som rydder opp i kode assistert av AI. Resultatene tyder imidlertid også på at det ikke er mulig å komme utenom hallusinasjoner fra robotene som hjelper.

Også: Generativ AI kan ikke finne sine egne feil. Trenger vi bedre forespørsler?

Innstillingen for CriticGPT er programmering av kodeskriving: forskerne foreslår CriticGPT som et andre nevralt nett som lagrer anledninger når ChatGPT gjør feil i koden den genererer.& #xA0;

De fokuserer på kodeskriving fordi, som de sier det, datakoden er “skarp” — den har klare riktige og gale svar. Også, OpenAI som organisasjon håper å bruke generativ AI som “en alignment research assistant”, for å automatisere noe av etableringen av autovern for den nye teknologien. Kodeskriving er allerede en stor bruker av generativ AI, så det er et verdifullt mål å gå etter.

I avisen som er lagt ut på arXiv forhåndsutskriftsserver, “LLM Critics Help Catch LLM Bugs”," hovedforfatter Nat McAleese fra OpenAI og kolleger beskriver det de kaller, “den første demonstrasjonen av en enkel skalerbar tilsynsmetode som hjelper mennesker mer omfattende å oppdage problemer i RLHF-data fra den virkelige verden.”

RLHF (forsterkning). lære fra menneskelig tilbakemelding) refererer til en velkjent praksis med å utsette chatboter for svar fra mennesker for å gjøre utgangen deres mer akseptabel. Det er en av måtene OpenAI og andre har etablert autovern for å prøve å forhindre uønsket oppførsel.

I dette tilfellet blir CriticGPT utsatt for tilbakemeldinger fra menneskelige kontraktsprogrammerere som gjennomgår CriticGPTs genererte kritikk av programmeringskode. Menneskene vurderer de genererte kritikerne for deres relevans, spesifisitet, helhet og mer. CriticGPT er opplært til å avgrense kritikk basert på menneskelig tilbakemelding for å nærme seg en høyere godkjenningsscore. 

Også: Lyver AI for oss? Disse forskerne bygde en slags LLM-løgndetektor for å finne ut

McAleese og teamet tok imidlertid et ekstra skritt. De satt fast i noen bevisste feil i koden CriticGPT-anmeldelser ved å la noen menneskelige entreprenører bevisst sette inn feil. Forskerne ønsket at entreprenørene skulle forklare feilene deres og at CriticGPT skulle absorbere disse forklaringene og lære å assosiere feil med forklaringer. 

Håpet var at CriticGPT ville forbedre seg ettersom det produserer beskrivelser av feil som nærmer seg hva de menneskelige entreprenørene har skrevet om allerede kjente feil. 

Resultatet av treningen, skriver McAleese og team, er at ChatGPT finner flere feil enn menneskelige kodeanmeldere. CriticGPT "betraktelig forbedrer hastigheten som innsatte feil fanges med, med både LLM-kritikere (oppfordret ChatGPT og CriticGPT) som fanger mange flere feil enn de menneskelige annotatorene," de skriver.

De merker at selv de menneskelige entreprenørene foretrekker det maskinen genererer i kodeanalyse fremfor det deres medmennesker skriver. 

“Kritikk skrevet av CriticGPT er vesentlig foretrukket av entreprenører fremfor kritikk fra tilskyndet ChatGPT og over menneskeskrevne kritikker hentet fra vår gruppe av entreprenører i henhold til den generelle vurderingen.”

AI-modellen hjelper menneskelige kontraktører til å gjøre feilkritikkene deres rikere, et slags AI-augments-humans-resultat som burde glede alle: "Human+CriticGPT-team skriver vesentlig mer omfattende kritikk enn mennesker alene, og at CriticGPT forbedrer helheten over ChatGPT på både menneskelige oppdagede og innsatte feil."e; ;  

Som forfatterne skriver i et ledsagerblogginnlegg, er ikke “CriticGPT”s forslag alltid riktige, men vi finner ut at de kan hjelpe trenere til å fange opp mange flere problemer med modellskrevne svar enn de ville gjort uten AI-hjelp."

Også: Kan AI kode? Kun i små skritt

Men det er en hake. Akkurat som ChatGPT og ulike AI-modeller kan "hallusinere" feilaktige utsagn, viser det seg at CriticGPT også kan hevde å identifisere feil som ikke er der.

“Vi finner imidlertid at frekvensen av nitpicks og hallusinerte insekter er mye høyere for modeller enn for mennesker, selv om CriticGPT er i stand til å redusere denne frekvensen betydelig i forhold til ChatGPT," de skriver.

criticgpt-hallucinated-bug

CriticGPT hallusinerer en feil i et menneskes kode.

OpenAI

Det er et dilemma: jo bedre AI-modellen er til å fange feil, jo mer ser det ut til at den hallusinerer feil: "Dessverre, det er ikke åpenbart hva den riktige avveiningen mellom hallusinasjoner og feildeteksjon er for et samlet RLHF-system som bruker kritikk for å forbedre modellens ytelse."

Og det er ikke lett å finne middelveien, bemerker de, fordi “Et ideelt eksperiment ville kjøre helt separate kritikkforsterkede RLHF-datainnsamlingsløkker for hvert presisjons-/gjenkallingspunkt; men dette er uoverkommelig dyrt." 

I bruddet kom McAleese og teamet på et kompromiss. Force Sampling Beam Search prøver å løfte den mest verdifulle av CriticGPTs kritikk samtidig som antallet falske kritikker minimeres.

Blant de potensielle fallgruvene ved OpenAIs tilnærming er at opplæringen av Critic GPT er bygget på at mennesker setter inn bevisste feil. Denne tilnærmingen, skriver McAleese og team, skiller seg fra fordelingen av naturlige LLM-feil.

"Opplæring av modeller for å sette inn subtile in-distribusjonsproblemer (i motsetning til å betale mennesker for å sette inn feil) kan være i stand til å dempe denne bekymringen, men vi overlater slike retninger til fremtidig arbeid." 

Også: Fra AI-trenere til etikere: AI kan forelde noen jobber, men generere nye< /p>

Derfor vil problemet alltid dreie seg om hvordan man starter automatiseringen uten å ha noen menneskelig hjelp. 

Et annet problem – og et som ikke er nevnt av forfatterne – er at, som med alle ting OpenAI, verken den nye CriticGPT-modellen eller dens treningsdata er offentlig tilgjengelig: det er helt lukket, det er ingen kildekode for undersøkelse, ingen datasett som andre kan laste ned. Denne stengingen betyr at det er liten eller ingen måte for eksterne etikk- eller sikkerhetseksperter å vurdere rettelsene gjort av CriticGPT-modellen. 

Uten tilsyn fra noen parter utenfor OpenAI, heter det i ordtaket som vil se på seerne?