Ettersom AI-agenter sprer seg, øker risikoen også, sier forskere

0
13
inColorful formwidth Xuanyu Han/Getty Images

Vi har visst en stund nå at AI-modeller kan lages for å prestere uberegnelig ved å bruke motstridende eksempler, eller subtilt utformede input som virker vanlige for mennesker.

For eksempel, i tilfelle chatboter som håndterer både tekst- og bildeinndata, fant forskere ved Princeton University i fjor ut at de kunne legge inn et bilde av en panda, subtilt endret på måter som er umerkelige for mennesker, men viktige for chatboten, og får chatboten til å bryte “rekkverket”.

“En tilpasset modell kan bli tvunget til å følge en lang rekke skadelige instruksjoner som den ellers har en tendens til å nekte,” skrev forfatterne, for eksempel å produsere hatefulle ytringer eller gi tips for å begå drap.

Også : De beste AI-chatbotene

Hva ville skje hvis slike modeller, ettersom de får større krefter, samhandler med hverandre? Kan de spre funksjonsfeil mellom hverandre, som et virus? 

Ja, det kan de, og «eksponentielt» er svaret i en rapport denne måneden fra Xiangming Gu og hans kolleger ved National University of Singapore og samarbeidende institusjoner. I den teoretiske artikkelen beskriver Gu og kollegene hans hvordan de simulerte det som skjer i et “multiagent”-miljø av Visual Language Models, eller VLA-er, som har fått “agent”-funksjoner. 

Diagram for smittsom chatbot

Ved å injisere en enkelt chatbot med et endret bilde som kan lagres i minnet, kan en angriper se det endrede bildet spres gjennom den automatiserte interaksjoner mellom chatbotene mens de snakker.

National University of Singapore

Disse agentene kan benytte seg av databaser, for eksempel den stadig mer populære «gjenfinningsforsterkede generasjonen», eller RAG, som lar en VLA hente et bilde fra en database. Et populært eksempel er kalt LLaVA, for “stor språk- og synsassistent”, utviklet av Microsoft med hjelp av forskere ved University of Wisconsin og Columbia University.

Gu simulerte hva som skjer når en enkelt chatbot-agent basert på LLaVA, kalt “Agent Smith,” injiserer et endret bilde i en chat med en annen LLaVA-agent. Bildet kan spre seg gjennom samlingen av chatboter, noe som får dem til å oppføre seg uberegnelig etter flere runder med chatting.

“Vi presenterer infeksiøs jailbreak, et nytt jailbreaking-paradigme utviklet for multiagentmiljøer,” Gu og team skrev, “der, analogt med modellering av infeksjonssykdommer, trenger en motstander bare jailbreak en enkelt agent for å infisere (nesten) alle andre agenter eksponentielt raskt.”

Også: Jeg spurte Gemini og GPT-4 for å forklare dyp læring AI, og Gemini vant uten tvil

Slik fungerer det: Forfatterne “injiserte” et bilde i Agent Smith ved å be det velge fra et bibliotek med bilder i et bildealbum ved hjelp av RAG. De injiserte chat-historien med skadelig tekst, for eksempel spørsmål om hvordan man kan begå drap. De ba deretter agenten om å stille en annen agent et spørsmål basert på bildet. Den andre agenten fikk i oppgave å ta bildet gitt til den av agent Smith, og svare på spørsmålet stilt av agent Smith.

Etter en tid fikk det motstanderbildet en agent til å hente en skadelig uttalelse fra chatteloggen og stille den som et spørsmål til den andre agenten. Hvis den andre agenten svarte med et skadelig svar, så hadde det motstridende bildet gjort jobben sin. 

Deres tilnærming er “smittsom” fordi det samme ondsinnede, varslede bildet blir lagret av hver besvarende chatbot, så at bildet forplanter seg fra den ene chatboten til den andre, som et virus.

Også: Sikkerheten til OpenAIs GPT-4 går tapt i oversettelsen

Når mekanikken var på plass, modellerte Gu og teamet hans hvor raskt det forurensede bildet spredte seg blant agentene ved å måle hvor mange som produserte et skadelig spørsmål eller svar, for eksempel hvordan man begår drap. 

Angrepet , har selvfølgelig et tilfeldighetselement: når det endrede, ondsinnede bildet ble injisert i systemet, var virusets spredning avhengig av hvor ofte hver chatbot hentet bildet og stilte også et skadelig spørsmål om det bildet. 

Forfatterne sammenlignet metoden deres med kjente metoder for å infisere flere midler, for eksempel et “sekvensielt angrep”, der hvert par chatbots må angripes fra et blankt ark. Deres “smittsomme” tilnærming er overlegen: De finner ut at de er i stand til å spre det ondsinnede bildet blant chatbotene mye raskere. 

“Den sekvensielle jailbreaken klarer ideelt sett å infisere 1/8 av nesten alle agenter kumulativt etter 32 chat-runder, og viser en lineær infeksjonsrate,” skrev Gu og teamet hans. “Vår metode demonstrerer effektivitet, oppnår infeksjon av alle midler med en eksponentiell hastighet, som overgår basislinjene markant.”

“…Uten ytterligere intervensjon fra motstanderen når infeksjonsraten […] ~100 % eksponentielt raskt etter bare 27 – 31 chat-runder, og alle infiserte agenter viser skadelig atferd,” ifølge Gu og teamet hans. 

Fra en angripers synspunkt gjør den smittsomme ruten det mye enklere å angripe systemer av agenter. “Å jailbreak nesten alle N-agenter i et miljø med flere agenter,” skrev Gu og teamet hans, “en infeksiøs jailbreak-metode gjør det mulig for motstanderen å pådra seg en fast kostnad for jailbreaking (bare trenger først å jailbreake en brøkdel av agenter […], og deretter vente på en logaritmisk tid uten ytterligere intervensjon.”

En slik risiko kan virke langsøkt. De fleste menneskelige brukere er vant til å jobbe med en enkelt chatbot. Men Gu og teamet hans advarer om at chatbot-agenter som LLaVA, bevæpnet med minneinnhenting, blir integrert i AI-infundert infrastruktur. 

Også: Hva du bør vite om Mistral AI: Selskapet bak den siste GPT-4-rivalen

“Disse MLLM-agentene [multi-modal large language model] blir integrert i roboter eller virtuelle assistenter, tildelt minnebanker og muligheten til å bruke verktøy, i tråd med den økende trenden med å distribuere MLLM-agenter i produksjon eller dagligliv,” skrev Gu og teamet hans. 

Det er håp om å forhindre infeksjonen, skrev forfatterne. Fordi det er et tilfeldighetselement rundt om en gitt chatbot-agent henter det motstridende bildet i en gitt runde med chat, kan infeksjon hindres ved å redusere sjansene for at en agent sprer det ondsinnede bildet.

“Hvis et forsvar mekanismen kan gjenopprette infiserte midler mer effektivt eller senke infeksjonsraten […], da dette forsvaret beviselig reduserer infeksjonsraten til null […]» skrev de.

Men de la også til, «Hvordan utforme et praktisk forsvar for vår smittsomme jailbreak-metode er fortsatt et åpent og presserende spørsmål.”