De meeste algoritmen die zijn ontworpen om mensen te helpen huidproblemen te identificeren, laten experts de datasets waarmee ze zijn ontwikkeld niet zien en delen geen informatie over de huidskleur of etniciteit van de patiënten in die datasets, volgens een nieuwe recensie. Dat zou het voor mensen moeilijk kunnen maken om de programma's te evalueren voordat ze ze gebruiken en om te begrijpen of ze misschien niet zo goed werken voor bepaalde groepen mensen, stellen de auteurs.
Dit soort tools gebruiken afbeeldingen van huidaandoeningen om een systeem te leren diezelfde aandoeningen in nieuwe afbeeldingen te herkennen. Iemand zou een foto van een uitslag of moedervlek kunnen uploaden en de tool zou kunnen zien wat voor soort uitslag of moedervlek het was.
Het artikel, gepubliceerd in JAMA Dermatology, analyseerde 70 onderzoeken die ofwel een nieuwe deep learning-model of testte een bestaand algoritme op een nieuwe set gegevens. Alles bij elkaar genomen zijn de modellen ontwikkeld of getest met meer dan 1 miljoen afbeeldingen van huidproblemen. Slechts een kwart van die afbeeldingen was beschikbaar voor experts of het publiek om te beoordelen, zo bleek uit de analyse. Veertien van de onderzoeken bevatten informatie over de etniciteit of het ras van de patiënten in hun gegevens, en slechts zeven beschreven hun huidtype.
“Ik vermoed sterk dat deze datasets niet divers zijn, maar er is geen manier om dat te weten”
De rest deelde de demografische uitsplitsing van hun patiënten niet. “Ik vermoed sterk dat deze datasets niet divers zijn, maar er is geen manier om het te weten”, zei studieauteur Roxana Daneshjou, een klinisch wetenschapper in dermatologie aan de Stanford University, op Twitter.
De analyse controleerde ook of de modellen die bedoeld waren om huidkanker te identificeren waren waren getraind op afbeeldingen waarop de kanker werd bevestigd met een huidmonster dat naar een laboratorium werd gestuurd – de “gouden standaard” om ervoor te zorgen dat de diagnose correct was . Van de onderzochte onderzoeken beweerden 56 deze aandoeningen te identificeren, maar slechts 36 daarvan voldeden aan de gouden standaard. Degenen die dat niet deden, kunnen minder nauwkeurig zijn, zeggen de auteurs.
De recensie bevatte een algoritme van Google, dat een tool heeft ontwikkeld om mensen te helpen huidaandoeningen te identificeren. Het bedrijf is van plan om later dit jaar een proefversie van zijn webtool te maken, waarmee mensen foto's van een huidprobleem kunnen uploaden en een lijst met mogelijke aandoeningen kunnen krijgen. Volgens de analyse bevat de Google-paper huidtype en een uitsplitsing naar etniciteit, maar heeft de gebruikte gegevens of het gebruikte model niet openbaar gemaakt. Het maakte ook geen gebruik van de gouden standaardmethoden voor het beoordelen van een paar soorten huidkanker, waaronder melanoom en basaalcelcarcinoom.
Medische algoritmen zijn zo goed als de gegevens waarmee ze zijn ontwikkeld
Medische algoritmen zijn slechts zo goed als de gegevens waarmee ze zijn ontwikkeld en zijn mogelijk niet zo effectief als ze worden gebruikt in andere situaties dan die waarin ze zijn getraind. Daarom pleiten experts ervoor dat data, of beschrijvingen van die data, vrij beschikbaar zouden moeten zijn: “de data die gebruikt worden om een model te trainen en te testen, kunnen de toepasbaarheid en generaliseerbaarheid ervan bepalen. Daarom is een duidelijk begrip van de kenmerken van de dataset … van cruciaal belang”, schreven de auteurs.
Gebrek aan transparantie is een consistent probleem met medische algoritmen. De meeste AI-producten die zijn goedgekeurd door de Food and Drug Administration (FDA) rapporteren geen belangrijke informatie over de gegevens waarmee ze zijn ontwikkeld, volgens een Stat News-onderzoek van februari 2021. De FDA vertelde Stat News dat haar nieuwe “actieplan” voor AI aandringt op meer transparantie.
De beperkingen betekenen niet dat de meeste dermatologische algoritmen nutteloos zijn, schreef Philipp Tschandl, een onderzoeker aan de Medische Universiteit van Wenen, in een begeleidend hoofdartikel. Artsen zijn ook niet perfect en hebben hun eigen vooroordelen of kennishiaten die hun interpretatie van een huidprobleem kunnen vertekenen. “We weten dit en slagen er nog steeds in om de geneeskunde goed te beoefenen”, schreef hij. “We moeten manieren vinden door middel van verklaarbaarheid, slimme controles en risicobeperking om algoritmen veilig en op een rechtvaardige manier te laten werken op het gebied van geneeskunde.”