NORSK

IBM håper å kjempe skjevhet i ansiktsgjenkjenning med nye mangfoldig dataset

128

dBias er et stort problem i ansiktsgjenkjenning, med studier som viser at kommersielle systemer er mer nøyaktig hvis du er hvit og mann. En del av grunnen til dette er mangel på mangfold i opplæringen data, med folk av farge vises sjeldnere enn sine jevnaldrende. IBM er en av de selskaper prøver å bekjempe dette problemet, og annonserte i dag to nye offentlige datasett som alle kan bruke for å trene facial anerkjennelse systemer — en som har vært kuratert spesielt for å bidra til å fjerne fordommer.

Det første datasettet inneholder 1 million bilder og vil hjelpe til med å trene systemer som kan oppdage spesifikke attributter som hårfarge, øyenfarge, og ansiktshår. Hvert ansikt er merket med disse egenskapene, noe som gjør det enklere for programmerere til å forbedre sine systemer for å bedre skille mellom, la oss si, en goatee og en soul patch. Det er ikke den største offentlige datasett for opplæring facial anerkjennelse systemer, men IBM sier det er den største av å inkludere slike koder.

Det andre datasettet er det mer interessant. Det er mindre enn den første, som inneholder 36,000 bilder, men ansikter i er en lik blanding etnisitet, kjønn og aldre. På samme måte som ansikts-attributtet koder hjelpe til med å trene AI-systemer for å anerkjenne disse forskjellene, er det å ha en mangfoldig blanding av ansikter bør hjelpe systemer overvinne ulike legninger. Begge datasett ble trukket fra bilder som er lagt til Flickr med Creative Commons-lisenser, som ofte tillater dem å bli brukt til forskningsformål.

“det handler ikke bare om å bygge våre egne evner, men samfunnet så vel.”

Ruchir Puri, chief architect av IBM Watson, fortalte Nippet at han ikke var klar over eventuelle andre offentlige datasett med et lignende fokus på mangfold. “Dette datasettet […] bør virkelig hjelpe designere å stille sine algoritmer,” sa Puri. “Data er grunnlaget for AI, og det handler ikke bare om å bygge opp våre egne evner, men samfunnet så vel.”

IBM kommersielle facial anerkjennelse systemer har blitt kritisert i det siste for å vise veldig skjevheter dette datasettet er ment å bekjempe. En studie fra MIT Media Lab publiserte i februar fant at IBM er feil i å identifisere kjønn mørkere hud kvinner var nesten 35 prosent, mens hvite menn var misgendered bare 1 prosent av tiden. Slike feil vil bli stadig viktigere som ansiktsgjenkjenning systemer brukes til oppgaver fra leie til identifisering av mistenkte kriminelle.

IBM sier det var å arbeide for å forbedre disse feilene på den tiden, og en oppdatert versjon av sin facial anerkjennelse system som brukes bredere opplæring sett (som en kunngjorde i dag) for å redusere feil ved nesten ti ganger i tester “lignende” til de ble utført av MIT forskere. Men det kan fortsatt være vanskelig å bedømme nøyaktig hvor mye disse systemer har økt, uten standardiserte beregninger for å vurdere bias.

Puri fortalte Nippet at IBM var interessert i å etablere slike tester, og sa at dette September selskapet ville være å holde en workshop med fagmiljøet for å arbeide på bedre benchmarks. “Det bør være matriser der mange av disse systemene skal bli dømt,” sa Puri. “Men at dommer bør gjøres av samfunnet, og ikke av noen spesiell spiller.”