Daten, die zum Erstellen von Algorithmen zur Erkennung von Hautkrankheiten verwendet werden, sind zu weiß

0
137

Öffentliche Hautbilddatensätze, die zum Trainieren von Algorithmen zur Erkennung von Hautproblemen verwendet werden, enthalten laut einer neuen Analyse nicht genügend Informationen zum Hautton. Und in den Datensätzen, in denen Hauttoninformationen verfügbar sind, weist nur eine sehr kleine Anzahl von Bildern eine dunklere Haut auf – daher sind Algorithmen, die mit diesen Datensätzen erstellt wurden, für Menschen, die nicht weiß sind, möglicherweise nicht so genau.

Die heute in The Lancet Digital Health veröffentlichte Studie untersuchte 21 frei zugängliche Datensätze mit Bildern von Hauterkrankungen. Zusammen enthielten sie über 100.000 Bilder. Etwas mehr als 1.400 dieser Bilder enthielten Informationen zur ethnischen Zugehörigkeit des Patienten und nur 2.236 enthielten Informationen zur Hautfarbe. Dieser Mangel an Daten schränkt die Fähigkeit der Forscher ein, Verzerrungen in den auf den Bildern trainierten Algorithmen zu erkennen. Und solche Algorithmen könnten sehr wohl verzerrt sein: Von den Bildern mit Hauttoninformationen stammten nur 11 von Patienten mit den beiden dunkelsten Kategorien auf der Fitzpatrick-Skala, die die Hautfarbe klassifiziert. Es gab keine Bilder von Patienten mit einem afrikanischen, afro-karibischen oder südasiatischen Hintergrund.

Die Schlussfolgerungen ähneln denen einer im September veröffentlichten Studie, in der auch festgestellt wurde, dass die meisten Datensätze, die für das Training von dermatologischen Algorithmen verwendet werden, keine Informationen zu ethnischer Zugehörigkeit oder Hautton enthalten. Diese Studie untersuchte die Daten hinter 70 Studien, die Algorithmen entwickelten oder testeten, und stellte fest, dass nur sieben die Hauttypen in den verwendeten Bildern beschrieben.

“Was wir aus der kleinen Anzahl von Papieren sehen, die über Hauttonverteilungen berichten, ist, dass diese eine Unterrepräsentation von dunkleren Hauttönen aufweisen”, sagt Roxana Daneshjou, klinische Wissenschaftlerin in Dermatologie an der Stanford University und Autorin des September-Papiers. Ihre Arbeit analysierte viele der gleichen Datensätze wie die neue Lancet-Forschung und kam zu ähnlichen Schlussfolgerungen.

Wenn Bilder in einem Datensatz öffentlich verfügbar sind, können Forscher durchgehen und überprüfen, welche Hauttöne vorhanden zu sein scheinen. Aber das kann schwierig sein, da Fotos möglicherweise nicht genau dem entsprechen, wie der Hautton im wirklichen Leben aussieht. „Die idealste Situation ist, dass der Hautton zum Zeitpunkt des klinischen Besuchs festgestellt wird“, sagt Daneshjou. Dann könnte das Bild des Hautproblems dieses Patienten beschriftet werden, bevor es in eine Datenbank eingeht.

Ohne Labels auf Bildern können Forscher die Algorithmen nicht überprüfen, um zu sehen, ob sie aus Datensätzen mit genügend Beispielen von Menschen mit unterschiedlichen Hauttypen erstellt wurden.

Es ist wichtig, diese Bildersätze genau zu prüfen, da sie häufig verwendet werden, um Algorithmen zu erstellen, die Ärzten helfen, Patienten mit Hauterkrankungen zu diagnostizieren, von denen einige – wie Hautkrebs – gefährlicher sind, wenn sie nicht frühzeitig erkannt werden. Wenn die Algorithmen nur auf heller Haut trainiert oder getestet wurden, sind sie für alle anderen nicht so genau. „Die Forschung hat gezeigt, dass Programme, die nur mit Bildern von Menschen mit helleren Hauttypen trainiert wurden, für Menschen mit dunklerer Haut möglicherweise nicht so genau sind und umgekehrt“, sagt David Wen, Co-Autor des neuen Papiers und Forscher am Universität von Oxford.

Neue Bilder können jederzeit zu öffentlichen Datensätzen hinzugefügt werden, und Forscher möchten mehr Beispiele für Erkrankungen bei dunklerer Haut sehen. Und die Verbesserung der Transparenz und Klarheit der Datensätze wird den Forschern helfen, den Fortschritt hin zu vielfältigeren Bildsätzen zu verfolgen, die zu gerechteren KI-Tools führen könnten. „Ich würde gerne mehr offene Daten und mehr gut gekennzeichnete Daten sehen“, sagt Daneshjou.