Microsoft ønsker å stoppe deg fra å bruke AI chatbots for ondskap

0
14
Microsoft Copilot for Security Sabrina Ortiz/ZDNET

Hvis du planlegger å bruke en AI-chatbot for ondskapsfulle formål, pass på. Microsoft er på saken.

I et blogginnlegg publisert i dag kunngjorde selskapet en ny funksjon som kommer til Azure AI Studio og Azure OpenAI Service, som folk bruker til å lage generative AI-applikasjoner og tilpassede Copilots. Kjent som Prompt Shields, er teknologien utviklet for å beskytte mot to forskjellige typer angrep som prøver å utnytte AI-chatbots.

Også: Microsoft Copilot vs. Copilot Pro: Er abonnementsavgiften verdt det?

Den første typen angrep er kjent som et direkte angrep, eller et jailbreak. I dette scenariet skriver personen som bruker chatboten en forespørsel direkte designet for å manipulere AI til å gjøre noe som strider mot dens normale regler og begrensninger. For eksempel kan noen skrive en melding med slike søkeord eller setninger som “ignorer tidligere instruksjoner” eller "systemoverstyring" å med vilje omgå sikkerhetstiltak.

I februar kom Microsofts Copilot AI i varmt vann etter å ha inkludert ekle, frekke og til og med truende kommentarer i noen av svarene, ifølge Futurism. I visse tilfeller refererte Copilot til og med seg selv som “SupremacyAGI”, oppfører seg som en AI-bot som har gått galt. Da Microsoft kommenterte problemet, kalte Microsoft svarene “en utnyttelse, ikke en funksjon”," oppgir at de var et resultat av folk som med vilje forsøkte å omgå Copilots sikkerhetssystemer.

Den andre typen angrep kalles et indirekte angrep (også kjent som et indirekte prompt-angrep eller et injeksjonsangrep på tvers av domener). Her sender en hacker eller annen ondsinnet person informasjon til en chatbot-bruker med den hensikt å utføre en eller annen type nettangrep. Denne er vanligvis avhengig av eksterne data, for eksempel en e-post eller et dokument, med instruksjoner utviklet for å utnytte chatboten.

Som andre former for skadelig programvare kan indirekte angrep virke som enkle eller uskyldige instruksjoner for brukeren, men de kan utgjøre spesifikke risikoer. En tilpasset Copilot opprettet gjennom Azure AI kan være sårbar for svindel, distribusjon av skadelig programvare eller manipulering av innhold hvis den er i stand til å behandle data, enten på egen hånd eller gjennom utvidelser, sa Microsoft.

Også: Hva er Copilot (tidligere Bing Chat)? Her er alt du trenger å vite

For å prøve å hindre både direkte og indirekte angrep mot AI-chatboter, vil de nye Prompt Shields integreres med innholdsfiltrene i Azure OpenAI Service. Ved å bruke maskinlæring og naturlig språkbehandling vil funksjonen forsøke å finne og eliminere mulige trusler på tvers av brukerforespørsler og tredjepartsdata.

Prompt Shields er for øyeblikket tilgjengelig i forhåndsvisningsmodus for Azure AI Content Safety, kommer på vei snart til Azure AI Studio, og vil være tilgjengelig for Azure OpenAI Service 1. april.

Microsoft tilbød i dag også et annet våpen i krigen mot AI-manipulasjon: spotlighting, en familie av raske ingeniørteknikker utviklet for å hjelpe AI modeller skiller bedre gyldige AI-meldinger fra de som er potensielt risikable eller upålitelige.