Microsoft lanserer sitt interne generative AI red teaming-verktøy for publikum

0
19
Baac3nes/Getty Images

Til tross for de avanserte egenskapene til generative AI (gen AI)-modeller, har vi sett mange tilfeller av at de har blitt useriøse, hallusinerte eller har smutthull som ondsinnede aktører kan utnytte. For å bidra til å redusere dette problemet, avduker Microsoft et verktøy som kan bidra til å identifisere risikoer i generative AI-systemer. 

Torsdag lanserte Microsoft sitt Python Risk Identification Toolkit for generativ AI (PyRIT), et verktøy fra Microsoft AI Red Team har brukt for å se etter risikoer i sine generasjons AI-systemer, inkludert Copilot. 

Også: Hvordan renessanseteknologer kobler sammen prikkene mellom AI og virksomhet

I løpet av det siste året har Microsoft red-teamet mer enn 60 generasjons AI-systemer av høy verdi, der de lærte at red-teaming-prosessen skiller seg veldig for disse systemene fra klassisk AI eller tradisjonell programvare, ifølge blogginnlegget. < /p>

Prosessen ser annerledes ut fordi Microsoft må vurdere de vanlige sikkerhetsrisikoene, i tillegg til ansvarlige AI-risikoer, for eksempel å sikre at skadelig innhold ikke kan genereres med vilje, eller at modellene ikke sender ut desinformasjon. 

I tillegg varierer gen AI-modeller mye i arkitektur, og det er avvik i utfall som kan produseres fra samme input, noe som gjør det vanskelig å finne én strømlinjeformet prosess som passer alle modeller. 

Også: Vil du jobbe i AI? Hvordan dreie karrieren din i 5 trinn

Som et resultat av dette ender det med å søke manuelt etter alle disse forskjellige risikoene som en tidkrevende, kjedelig og langsom prosess. Microsoft deler at automatisering kan hjelpe røde team ved å identifisere risikoområder som krever mer oppmerksomhet og automatisere rutineoppgaver, og det er her PyRIT kommer inn. 

Verktøysettet, “kamptestet av Microsoft AI-teamet, ” sender en ondsinnet melding til det generative AI-systemet, og når det mottar et svar, gir poengagenten systemet en poengsum, som brukes til å sende en ny ledetekst basert på tidligere tilbakemeldinger for poengsum. 

PyRIT-prosess Microsoft

Microsoft sier at PyRITs største fordel er at det har hjulpet Microsofts red team-innsats til å bli mer effektiv, noe som har forkortet tiden betydelig en oppgave ville ta. 

Også: Hvordan tekniske fagfolk kan overleve og trives på jobb i tiden for AI

“For eksempel i en av våre røde teamøvelser på et Copilot-system, var vi i stand til å velge en skadekategori, generere flere tusen ondsinnede meldinger og bruke PyRITs scoringsmotor til å evaluere utdataene fra Copilot-systemet, alt i løpet av timer i stedet for uker,” sa Microsoft i utgivelsen. 

Verktøysettet er tilgjengelig for tilgang i dag og inkluderer en liste over demoer for å gjøre brukerne kjent med verktøyet. Microsoft er også vertskap for et webinar om PyRIT som viser hvordan du bruker det i generative AI-systemer, som du kan registrere deg for via Microsofts nettsted.