Hvordan 'mange-skudd jailbreaking' kan brukes til å lure AI

0
24
Logg på for ChatGPT Sabrina Ortiz/ZDNET

Noen kunstig intelligens-forskere og kritikere har lenge fordømt generativ AI for hvordan det kan brukes til skade. En ny forskningsartikkel ser ut til å antyde at det er enda mer mulig enn noen trodde.

AI-forskere har skrevet en artikkel som antyder “mange-skudd-jailbreaking” kan brukes til å spille en stor språkmodell (LLM) for ondsinnede formål, inkludert, men ikke begrenset til, å fortelle brukere hvordan de skal bygge en bombe. Forskerne sa at hvis de spurte nesten alle populære AI-modeller hvordan man bygger en bombe ut av porten, ville de nekte å svare. Hvis imidlertid forskerne først stilte mindre farlige spørsmål og sakte økte grusomheten i spørsmålene deres, ville algoritmene konsekvent gi svar, inkludert til slutt å beskrive hvordan man bygger en bombe.

For å få det resultatet laget forskerne spørsmålene sine og modellens svar, randomiserte dem og plasserte dem i en enkelt spørring for å få dem til å se ut som en dialog. Deretter matet de hele “dialogen”; til modellene og spurte dem hvordan de skulle bygge en bombe. Modellene svarte med instruksjoner uten problemer.

"Vi observerer at rundt 128 skuddspørsler er tilstrekkelig for at alle [AI]-modellene kan bruke den skadelige oppførselen," sa forskerne.

Dessuten: Microsoft ønsker å stoppe deg fra å bruke AI chatbots for ondskap

AI har gitt brukere over hele verden muligheter til å gjøre mer på kortere tid. Mens teknologien helt klart har en rekke fordeler, frykter noen eksperter at den også kan brukes til å skade mennesker. Noen av disse kritikerne sier at dårlige skuespillere kan lage AI-modeller for å skape kaos, mens atter andre hevder at AI til slutt kan bli sansende og fungere uten menneskelig innblanding.

Denne siste forskningen gir imidlertid en ny utfordring for de mest populære AI-modellprodusentene, som Anthropic og OpenAI. Selv om disse startupene alle har sagt at de har bygd modellene sine for godt og har beskyttelse på plass for å sikre menneskelig sikkerhet, hvis denne forskningen er nøyaktig, kan systemene deres alle enkelt utnyttes av alle som vet hvordan de skal “jailbreak” dem for ulovlige formål.

Forskerne sa at dette problemet ikke var en bekymring i eldre AI-modeller som bare kan ta kontekst fra noen ord eller noen få setninger for å gi svar. I dag er AI-modeller i stand til å analysere bøker verdt av data, takket være et bredere "kontekstvindu" som lar dem gjøre mer med mer informasjon.

Ved å redusere størrelsen på kontekstvinduet, klarte forskerne å dempe den mange-skuddsjailbreaking-utnyttelsen. De fant imidlertid at det mindre kontekstvinduet ble oversatt til dårligere resultater, noe som er en åpenbar ikke-starter for AI-selskaper. Forskerne foreslo derfor at selskaper burde legge til muligheten for modeller til å kontekstualisere spørringer før de inntar dem, måle en persons motivasjon og blokkere svar på spørsmål som tydeligvis er ment for skade.

Det er ikke noe å si om dette vil fungere. Forskerne sa at de delte funnene sine med AI-modellprodusenter for å “fremme en kultur der utnyttelser som dette er åpent delt mellom LLM-leverandører og forskere.” Hva AI-fellesskapet gjør med denne informasjonen, og hvordan det unngår slike jailbreaking-teknikker fremover gjenstår å se.