Offentlige hudbillededatasæt, der bruges til at træne algoritmer til at opdage hudproblemer, indeholder ifølge en ny analyse ikke nok information om hudfarve. Og inden for de datasæt, hvor hudfarveinformation er tilgængelig, er kun et meget lille antal billeder af mørkere hud – så algoritmer bygget ved hjælp af disse datasæt er muligvis ikke så nøjagtige for personer, der ikke er hvide.
Undersøgelsen, offentliggjort i dag i The Lancet Digital Health, undersøgte 21 frit tilgængelige datasæt af billeder af hudsygdomme. Tilsammen indeholdt de over 100.000 billeder. Lidt over 1.400 af disse billeder havde oplysninger om patientens etnicitet, og kun 2.236 havde oplysninger om hudfarve. Denne mangel på data begrænser forskernes evne til at spotte skævheder i algoritmer, der trænes på billederne. Og sådanne algoritmer kunne meget vel være partiske: Af billederne med hudfarveoplysninger var kun 11 fra patienter med de mørkeste to kategorier på Fitzpatrick-skalaen, som klassificerer hudfarve. Der var ingen billeder fra patienter med en afrikansk, afro-caribisk eller sydasiatisk baggrund.
Konklusionerne ligner dem fra en undersøgelse offentliggjort i september, som også fandt ud af, at de fleste datasæt, der bruges til træning af dermatologiske algoritmer, ikke har information om etnicitet eller hudfarve. Denne undersøgelse undersøgte dataene bag 70 undersøgelser, der udviklede eller testede algoritmer og fandt ud af, at kun syv beskrev hudtyperne i de anvendte billeder.
“Det, vi ser fra det lille antal artikler, der rapporterer hudtonefordelinger, er, at de viser en underrepræsentation af mørkere hudtoner,” siger Roxana Daneshjou, en klinisk forsker i dermatologi ved Stanford University og forfatter til september-avisen. Hendes papir analyserede mange af de samme datasæt som den nye Lancet-forskning og kom til lignende konklusioner.
Når billeder i et datasæt er offentligt tilgængelige, kan forskere gå igennem og gennemgå, hvilke hudtoner der ser ud til at være til stede. Men det kan være svært, fordi billederne måske ikke lige passer til, hvordan hudtonen ser ud i det virkelige liv. “Den mest ideelle situation er, at hudtonen noteres på tidspunktet for det kliniske besøg,” siger Daneshjou. Derefter kan billedet af patientens hudproblem mærkes, før det går ind i en database.
Uden etiketter på billeder kan forskere ikke tjekke algoritmer for at se, om de er bygget ved hjælp af datasæt med nok eksempler på mennesker med forskellige hudtyper.
Det er vigtigt at granske disse billedsæt, fordi de ofte bruges til at bygge algoritmer, der hjælper læger med at diagnosticere patienter med hudsygdomme, hvoraf nogle – som hudkræft – er mere farlige, hvis de ikke fanges tidligt. Hvis algoritmerne kun er blevet trænet eller testet på lys hud, vil de ikke være lige så nøjagtige for alle andre. “Forskning har vist, at programmer, der er trænet på billeder taget fra mennesker med lysere hudtyper, måske ikke er så nøjagtige for mennesker med mørkere hud, og omvendt,” siger David Wen, en medforfatter på det nye papir og en forsker ved University of Oxford.
Nye billeder kan altid tilføjes til offentlige datasæt, og forskere ønsker at se flere eksempler på tilstande på mørkere hud. Og forbedring af gennemsigtigheden og klarheden af datasættene vil hjælpe forskere med at spore fremskridt hen imod mere forskelligartede billedsæt, der kan føre til mere retfærdige AI-værktøjer. “Jeg vil gerne se mere åbne data og mere velmærkede data,” siger Daneshjou.