I set di dati di immagini della pelle pubblici utilizzati per addestrare gli algoritmi per rilevare i problemi della pelle non includono informazioni sufficienti sul tono della pelle, secondo una nuova analisi. E all'interno dei set di dati in cui sono disponibili informazioni sulla tonalità della pelle, solo un numero molto ridotto di immagini è di pelle più scura, quindi gli algoritmi creati utilizzando questi set di dati potrebbero non essere così precisi per le persone che non sono bianche.
Lo studio, pubblicato oggi su The Lancet Digital Health, ha esaminato 21 set di dati liberamente accessibili di immagini di condizioni della pelle. Insieme, contenevano oltre 100.000 immagini. Poco più di 1.400 di quelle immagini avevano informazioni allegate sull'etnia del paziente e solo 2.236 avevano informazioni sul colore della pelle. Questa mancanza di dati limita la capacità dei ricercatori di individuare i bias negli algoritmi addestrati sulle immagini. E tali algoritmi potrebbero benissimo essere distorti: delle immagini con informazioni sul tono della pelle, solo 11 provenivano da pazienti con le due categorie più scure sulla scala Fitzpatrick, che classifica il colore della pelle. Non c'erano immagini di pazienti di origine africana, afro-caraibica o dell'Asia meridionale.
Le conclusioni sono simili a quelle di uno studio pubblicato a settembre, che ha anche scoperto che la maggior parte dei set di dati utilizzati per l'addestramento degli algoritmi di dermatologia non contiene informazioni sull'etnia o sul tono della pelle. Quello studio ha esaminato i dati alla base di 70 studi che hanno sviluppato o testato algoritmi e ha scoperto che solo sette descrivevano i tipi di pelle nelle immagini utilizzate.
“Quello che vediamo dal piccolo numero di articoli che riportano le distribuzioni del tono della pelle, è che questi mostrano una sottorappresentazione dei toni della pelle più scuri”, afferma Roxana Daneshjou, studiosa clinica in dermatologia presso la Stanford University e autrice del documento di settembre. Il suo articolo ha analizzato molti degli stessi set di dati della nuova ricerca su Lancet ed è giunto a conclusioni simili.
Quando le immagini in un set di dati sono disponibili pubblicamente, i ricercatori possono esaminare e rivedere quali tonalità della pelle sembrano essere presenti. Ma può essere difficile, perché le foto potrebbero non corrispondere esattamente a come appare il tono della pelle nella vita reale. “La situazione più ideale è che il tono della pelle sia notato al momento della visita clinica”, afferma Daneshjou. Quindi, l'immagine del problema della pelle di quel paziente potrebbe essere etichettata prima di entrare in un database.
Senza etichette sulle immagini, i ricercatori non possono controllare gli algoritmi per vedere se sono costruiti utilizzando set di dati con un numero sufficiente di esempi di persone con diversi tipi di pelle.
È importante esaminare questi set di immagini perché sono spesso utilizzati per creare algoritmi che aiutano i medici a diagnosticare i pazienti con malattie della pelle, alcune delle quali, come i tumori della pelle, sono più pericolose se non vengono scoperte in anticipo. Se gli algoritmi sono stati addestrati o testati solo su pelle chiara, non saranno altrettanto accurati per tutti gli altri. “La ricerca ha dimostrato che i programmi addestrati su immagini scattate da persone con tipi di pelle più chiara potrebbero non essere altrettanto accurati per le persone con la pelle più scura e viceversa”, afferma David Wen, coautore del nuovo articolo e ricercatore presso il Università di Oxford.
Nuove immagini possono sempre essere aggiunte a set di dati pubblici e i ricercatori vogliono vedere più esempi di condizioni sulla pelle più scura. E migliorare la trasparenza e la chiarezza dei set di dati aiuterà i ricercatori a monitorare i progressi verso set di immagini più diversificati che potrebbero portare a strumenti di intelligenza artificiale più equi. “Vorrei vedere più dati aperti e dati più ben etichettati”, afferma Daneshjou.