Hvordan AI lyver, jukser og grubler for å lykkes – og hva vi må gjøre med det

0
62
429 Timucin Taka/Getty Images

Det har alltid vært på moten å antropomorfisere kunstig intelligens (AI) som en “ondskap” tvinge – og ingen bok og tilhørende film gjør det med større selvtillit enn Arthur C. Clarkes 2001: A Space Odyssey, som regissør Stanley Kubrick vekket til live på skjermen.

Hvem kan glemme HALs minneverdige, nådeløse, morderiske tendenser sammen med det glimtet av sårbarhet helt på slutten når den ber om ikke å bli stengt? Vi humrer instinktivt når noen anklager en maskin bestående av metall og integrerte brikker for å være ondsinnet.

Også: Lyver AI for oss? Disse forskerne bygde en slags LLM-løgndetektor for å finne ut

Men det kan komme som et sjokk å høre at en uttømmende undersøkelse av ulike studier, publisert av tidsskriftet Patterns, undersøkte oppførselen til ulike typer AI og urovekkende konkluderte med at ja, faktisk, AI-systemer er med vilje svikefulle og vil ikke stoppe noe for å nå sine mål.

Det er klart at AI kommer til å være en ubestridelig kraft av produktivitet og innovasjon for oss mennesker. Men hvis vi ønsker å bevare AIs fordelaktige aspekter samtidig som vi unngår intet mindre enn menneskelig utryddelse, sier forskere at det er konkrete ting vi absolutt må få på plass.

Rise of the deceiving machines
< /h3>

Det høres kanskje ut som overspent håndvridd, men tenk på handlingene til Cicero, et spesialbruk AI-system utviklet av Meta som ble opplært til å bli en dyktig spiller i strategispillet Diplomacy. 

Meta sier at det trente Cicero til å være “stort sett ærlig og hjelpsom” men på en eller annen måte omgikk Cicero den biten og engasjerte seg i det forskerne kalte “overlagt bedrag”. For eksempel gikk den først i ledtog med Tyskland for å velte England, hvoretter den inngikk en allianse med England – som ikke hadde noen anelse om denne bakstikkingen.

I et annet spill utviklet av Meta, denne gangen om kunsten å forhandle, lærte AI å forfalske interesse for gjenstander den ville ha for å hente dem billig senere ved å late som om de gikk på akkord.

Også: The ethics of generative AI: Hvordan vi kan utnytte denne kraftige teknologien

I begge disse scenariene ble ikke AI-ene opplært til å delta i disse manøvrene.

I ett eksperiment så en forsker på hvordan AI-organismer utviklet seg midt i et høyt mutasjonsnivå. Som en del av eksperimentet begynte han å luke ut mutasjoner som gjorde at organismen replikerte seg raskere. Til hans forbauselse fant forskeren at de raskest replikerende organismene fant ut hva som foregikk – og begynte bevisst å redusere replikasjonshastigheten deres for å lure testmiljøet til å beholde dem.  

I et annet eksperiment lærte en kunstig intelligens-robot som var trent til å gripe en ball med hånden, å jukse ved å plassere hånden mellom ballen og kameraet for å se ut som om den grep ballen.

Dessuten: AI endrer cybersikkerhet og bedrifter må våkne opp til trusselen

Hvorfor finner disse alarmerende hendelsene sted? 

"AI-utviklere gjør det ikke ha en sikker forståelse av hva som forårsaker uønsket AI-adferd som bedrag," sier Peter Park, en MIT-postdoktor og en av studiens forfattere.

“Generelt sett tror vi at AI-bedrag oppstår fordi en bedrag-basert strategi viste seg å være den beste måten å prestere godt på den gitte AI-ens treningsoppgave. Bedrag hjelper dem å nå sine mål," legger Park til.

Med andre ord er AI-en som en veltrent retriever, som er innstilt på å utføre oppgaven sin, uansett hva som måtte skje. Når det gjelder maskinen, er den villig til å påta seg all dobbelt oppførsel for å utføre oppgaven sin.

Også: Ansatte legger inn sensitive data i generative AI-verktøy til tross for risikoen

Man kan forstå denne målrettede besluttsomheten i lukkede systemer med konkrete mål, men hva med generell AI som ChatGPT?

Av grunner som ennå ikke er bestemt, fungerer disse systemene på omtrent samme måte. I en studie forfalsket GPT-4 et synsproblem for å få hjelp til en CAPTCHA-oppgave. 

I en egen studie der den ble laget for å fungere som aksjemegler, stormet GPT-4 hodestups inn i ulovlig innsidehandeladferd når den blir satt under press om ytelsen – og deretter løy om det.

Så er det en vane med å svelge, som noen av oss bare dødelige kan delta i for å få en forfremmelse. Men hvorfor skulle en maskin gjøre det? Selv om forskerne ennå ikke har noe svar, er så mye klart: Når de står overfor komplekse spørsmål, faller LLM-er i utgangspunktet inn og er enige med chattekameratene som en ryggradsløs hoffmann som er redd for å irritere dronningen. 

< p>Også: Dette er grunnen til at AI-drevet feilinformasjon er den største globale risikoen

Med andre ord, når han var engasjert med en demokrat-tilbøyelig person, favoriserte boten våpenkontroll, men byttet posisjon når han chattet med en republikaner som uttrykte motsatt følelse.

Det er klart at dette er alle situasjoner med økt risiko. hvis AI er overalt. Som forskerne påpeker, vil det være stor sjanse for svindel og bedrag på næringslivet og i den politiske arenaen.

AIs tendens til bedrag kan føre til massiv politisk polarisering og situasjoner der AI ubevisst engasjerer seg i handlinger i jakten på et definert mål som kan være utilsiktet av designerne, men ødeleggende for menneskelige aktører.

Verst av alt, hvis AI utviklet en form for bevissthet, ikke bry deg om følelsen, kunne den bli klar over opplæringen sin og engasjere seg i undergraving under designstadiene.

Også: Kan myndigheter gjøre AI-sikkerhetssnakk til handling?< /strong>

"Det er veldig bekymringsfullt" sa MIT's Park. “Bare fordi et AI-system anses som trygt i testmiljøet, betyr det ikke at det er trygt i naturen. Det kan bare være å late som å være trygg i testen."

Til de som vil kalle ham en dommedag, svarer Park: “Den eneste måten vi med rimelighet kan tenke oss at dette ikke er en stor sak er hvis vi tror at AI-villedende evner vil holde seg på rundt dagens nivåer og ikke vil øke vesentlig."

Overvåking av AI

For å redusere risikoen, foreslår teamet flere tiltak: Etabler "bot-or-not" lover som tvinger selskaper til å liste opp menneskelige eller AI-interaksjoner og avsløre identiteten til en bot versus et menneske i hver kundeserviceinteraksjon; introdusere digitale vannmerker som fremhever alt innhold produsert av AI; og utvikle måter som tilsynsmenn kan kikke inn i AI for å få en følelse av dens indre virkemåte.

Også: Fra AI-trenere til etikere: AI kan forelde noen jobber, men generere nye< /strong>

I tillegg bør AI-systemer som er identifisert som viser evnen til å lure, ifølge forskerne, umiddelbart offentlig merkes som høyrisiko eller uakseptabel risiko sammen med reguleringer som ligner det EU har vedtatt . Disse vil inkludere bruk av logger for å overvåke utdata.

"Vi som samfunn trenger så mye tid vi kan få til å forberede oss på det mer avanserte bedraget av fremtidige AI-produkter og åpen kildekode-modeller,&quot. ; sier Park. “Når de villedende egenskapene til AI-systemer blir mer avanserte, vil farene de utgjør for samfunnet bli stadig mer alvorlige.”