dBias è un grosso problema di riconoscimento facciale, con studi che dimostrano che i sistemi commerciali sono più accurate se sei bianco e maschio. Parte della ragione di questo è una mancanza di diversità nella formazione dei dati, con la gente di colore che appare meno frequentemente rispetto ai loro coetanei. IBM è una delle aziende che cercano di combattere questo problema, e ha annunciato oggi due nuovi set di dati pubblici che chiunque può utilizzare per addestrare sistemi di riconoscimento facciale, una delle quali è stata curata appositamente per aiutare a rimuovere pregiudizi.
Il primo set di dati contiene 1 milione di immagini e contribuiranno alla formazione di sistemi che possono individuare specifici attributi, come il colore dei capelli, colore degli occhi, il viso e i capelli. Ogni faccia è annotato con queste caratteristiche, rendendo più facile per i programmatori di affinare i loro sistemi di meglio distinguere tra, diciamo, un pizzetto e un anima patch. Non è il pubblico più grande di set di dati per la formazione di sistemi di riconoscimento facciale, ma IBM dice che è il più grande di includere tali tag.
Il secondo set di dati è il più interessante. E ‘ più piccolo del primo, contenente 36,000 immagini, ma i volti all’interno di un’uguale mix di etnie, di sesso e di età. Nello stesso modo In cui il viso attributo tag treno di aiuto AI sistemi di riconoscere queste differenze, avere un mix di volti dovrebbero aiutare sistemi di superare i vari pregiudizi. Entrambi i set di dati sono stati ricavati dalle foto pubblicate su Flickr con licenza Creative Commons, che spesso permettono loro di essere utilizzati per scopi di ricerca.
“non è solo questione di costruire la nostra capacità, ma la comunità.”
Ruchir Puri, chief architect di IBM Watson, ha detto a The Verge che egli non era a conoscenza di altri soggetti pubblici di dati con una simile visione della diversità. “Questo set di dati […] dovrebbe davvero aiutare i progettisti di ottimizzare i loro algoritmi,” ha detto Puri. “I dati è la fondazione di AI, e non è solo questione di costruire la nostra capacità, ma la comunità.”
IBM commerciale di sistemi di riconoscimento facciale sono stato criticato in passato per la visualizzazione molto pregiudizi di questo set di dati è finalizzato a combattere. Uno studio del MIT Media Lab, pubblicato nel febbraio trovato che IBM tasso di errore nell’identificare il sesso dei più scuro di pelle per le donne era quasi il 35 per cento, mentre gli uomini bianchi erano misgendered solo 1 per cento del tempo. Tali errori diventeranno sempre più importanti come sistemi di riconoscimento facciale sono utilizzati per compiti da assumere per l’identificazione di sospetti criminali.
IBM dice che è stato a lavorare per migliorare questi errori, e una versione aggiornata del suo sistema di riconoscimento facciale utilizzato più ampio set di formazione (come quello annunciato oggi) per ridurre gli errori da quasi dieci volte in prove di “simili” a quelle condotte da scienziati del MIT. Tuttavia, può ancora essere difficile valutare esattamente quanto questi sistemi hanno migliorato senza metriche standard per la valutazione di bias.
Puri detto Punto che IBM era interessato a contribuire alla creazione di tali prove, e ha detto che questo mese di settembre la società sarebbe in possesso di un workshop con la comunità accademica a lavorare sul miglioramento dei parametri di riferimento. “Non ci dovrebbe essere matrici, grazie al quale molti di questi sistemi dovrebbero essere giudicati”, ha detto Puri. “Ma che a giudicare dovrebbe essere fatto dalla comunità, e non da un giocatore in particolare.”