Aktuelle Dermatologie 2022; 48(03): 84-91
DOI: 10.1055/a-1514-2013
Übersicht

Künstliche Intelligenz auf dem Vormarsch – Hohe Vorhersage-Genauigkeit bei der Früherkennung pigmentierter Melanome

The Rise of Artificial Intelligence – High Prediction Accuracy in Early Detection of Pigmented Melanoma

Authors

  • Tanja B. Jutzi

    Nachwuchsgruppe Digitale Biomarker für die Onkologie, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg, Deutschland
  • Eva I. Krieghoff-Henning

    Nachwuchsgruppe Digitale Biomarker für die Onkologie, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg, Deutschland
  • Titus J. Brinker

    Nachwuchsgruppe Digitale Biomarker für die Onkologie, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg, Deutschland
 

Zusammenfassung

Weltweit steigt die Inzidenz des malignen Melanoms an. Bei frühzeitiger Erkennung ist das Melanom gut behandelbar, eine Früherkennung ist also lebenswichtig.

Die Hautkrebs-Früherkennung hat sich in den letzten Jahrzehnten bspw. durch die Einführung des Screenings im Jahr 2008 und die Dermatoskopie deutlich verbessert. Dennoch bleibt die visuelle Erkennung insbesondere von frühen Melanomen eine Herausforderung, weil diese viele morphologische Überlappungen mit Nävi zeigen. Daher ist der medizinische Bedarf weiterhin hoch, die Methoden zur Hautkrebsfrüherkennung gezielt weiterzuentwickeln, um Melanome bereits in einem sehr frühen Stadium sicher diagnostizieren zu können.

Die Routinediagnostik zur Hautkrebs-Früherkennung umfasst die visuelle Ganzkörperinspektion, oft ergänzt durch die Dermatoskopie, durch die sich die diagnostische Treffsicherheit erfahrener Hautärzte deutlich erhöhen lässt. Ein Verfahren, was in einigen Praxen und Kliniken zusätzlich angeboten wird, ist die kombinierte Ganzkörperfotografie mit der digitalen Dermatoskopie für die Früherkennung maligner Melanome, insbesondere für das Monitoring von Hochrisiko-Patienten.

In den letzten Jahrzenten wurden zahlreiche nicht invasive zusatzdiagnostische Verfahren zur Beurteilung verdächtiger Pigmentmale entwickelt, die das Potenzial haben könnten, eine verbesserte und z. T. automatisierte Bewertung dieser Läsionen zu ermöglichen. In erster Linie ist hier die konfokale Lasermikroskopie zu nennen, ebenso die elektrische Impedanzspektroskopie, die Multiphotonen-Lasertomografie, die Multispektralanalyse, die Raman-Spektroskopie oder die optische Kohärenztomografie. Diese diagnostischen Verfahren fokussieren i. d. R. auf hohe Sensitivität, um zu vermeiden, ein malignes Melanom zu übersehen. Dies bedingt allerdings üblicherweise eine geringere Spezifität, was im Screening zu unnötigen Exzisionen vieler gutartiger Läsionen führen kann. Auch sind einige der Verfahren zeitaufwendig und kostenintensiv, was die Anwendbarkeit im Screening ebenfalls einschränkt.

In naher Zukunft wird insbesondere die Nutzung von künstlicher Intelligenz die Diagnosefindung in vielfältiger Weise verändern. Vielversprechend ist v. a. die Analyse der makroskopischen und dermatoskopischen Routine-Bilder durch künstliche Intelligenz. Für die Klassifizierung von pigmentierten Hautläsionen anhand makroskopischer und dermatoskopischer Bilder erzielte die künstliche Intelligenz v. a. in Form neuronaler Netze unter experimentellen Bedingungen in zahlreichen Studien bereits eine vergleichbare diagnostische Genauigkeit wie Dermatologen. Insbesondere bei der binären Klassifikationsaufgabe Melanom/Nävus erreichte sie hohe Genauigkeiten, doch auch in der Multiklassen-Differenzierung von verschiedenen Hauterkrankungen zeigt sie sich vergleichbar gut wie Dermatologen. Der Nachweis der grundsätzlichen Anwendbarkeit und des Nutzens solcher Systeme in der klinischen Praxis steht jedoch noch aus. Noch zu schaffende Grundvoraussetzungen für die Translation solcher Diagnosesysteme in die dermatologischen Routine sind Möglichkeiten für die Nutzer, die Entscheidungen des Systems nachzuvollziehen, sowie eine gleichbleibend gute Leistung der Algorithmen auf Bilddaten aus fremden Kliniken und Praxen.

Derzeit zeichnet sich ab, dass computergestützte Diagnosesysteme als Assistenzsysteme den größten Nutzen bringen könnten, denn Studien deuten darauf hin, dass eine Kombination von Mensch und Maschine die besten Ergebnisse erzielt. Diagnosesysteme basierend auf künstlicher Intelligenz sind in der Lage, Merkmale schnell, quantitativ, objektiv und reproduzierbar zu erfassen, und könnten somit die Medizin auf eine mathematische Grundlage stellen – zusätzlich zur ärztlichen Erfahrung.


Abstract

The incidence of malignant melanoma is increasing worldwide. If detected early, melanoma is highly treatable, so early detection is vital.

Skin cancer early detection has improved significantly in recent decades, for example by the introduction of screening in 2008 and dermoscopy. Nevertheless, in particular visual detection of early melanomas remains challenging because they show many morphological overlaps with nevi. Hence, there continues to be a high medical need to further develop methods for early skin cancer detection in order to be able to reliably diagnose melanomas at a very early stage.

Routine diagnostics for melanoma detection include visual whole body inspection, often supplemented by dermoscopy, which can significantly increase the diagnostic accuracy of experienced dermatologists. A procedure that is additionally offered in some practices and clinics is whole-body photography combined with digital dermoscopy for the early detection of malignant melanoma, especially for monitoring high-risk patients.

In recent decades, numerous noninvasive adjunctive diagnostic techniques were developed for the examination of suspicious pigmented moles, that may have the potential to allow improved and, in some cases, automated evaluation of these lesions. First, confocal laser microscopy should be mentioned here, as well as electrical impedance spectroscopy, multiphoton laser tomography, multispectral analysis, Raman spectroscopy or optical coherence tomography. These diagnostic techniques usually focus on high sensitivity to avoid malignant melanoma being overlooked. However, this usually implies lower specificity, which may lead to unnecessary excision of benign lesions in screening. Also, some of the procedures are time-consuming and costly, which also limits their applicability in skin cancer screening.

In the near future, the use of artificial intelligence might change skin cancer diagnostics in many ways. The most promising approach may be the analysis of routine macroscopic and dermoscopic images by artificial intelligence.

For the classification of pigmented skin lesions based on macroscopic and dermoscopic images, artificial intelligence, especially in form of neural networks, has achieved comparable diagnostic accuracies to dermatologists under experimental conditions in numerous studies. In particular, it achieved high accuracies in the binary melanoma/nevus classification task, but it also performed comparably well to dermatologists in multiclass differentiation of various skin diseases. However, proof of the basic applicability and utility of such systems in clinical practice is still pending. Prerequisites that remain to be established to enable translation of such diagnostic systems into dermatological routine are means that allow users to comprehend the system’s decisions as well as a uniformly high performance of the algorithms on image data from other hospitals and practices.

At present, hints are accumulating that computer-aided diagnosis systems could provide their greatest benefit as assistance systems, since studies indicate that a combination of human and machine achieves the best results. Diagnostic systems based on artificial intelligence are capable of detecting morphological characteristics quickly, quantitatively, objectively and reproducibly, and could thus provide a more objective analytical basis – in addition to medical experience.


Neuerkrankungen an malignem Melanom haben in den letzten Jahrzehnten erheblich zugenommen. Jährlich erkranken derzeit über 20 000 Personen in Deutschland am malignen Melanom – und die Inzidenz steigt weiter [1]. Bei frühzeitiger Erkennung ist die Prognose i. d. R. sehr gut und eine Heilung allein durch eine Resektion mit ausreichendem Sicherheitsabstand zu erreichen.

In fortgeschrittenen Stadien ist die Prognose – selbst unter Anwendung moderner Therapiekonzepte mit BRAF/MEK-Hemmern oder Checkpoint-Inhibitoren – deutlich ungünstiger. Die frühzeitige Erkennung von Melanomen ist somit von entscheidender Bedeutung und regelmäßige dermatologische Untersuchungen der Haut sind zu empfehlen. Als Oberflächenorgan kann die Haut sehr genau und vollständig untersucht werden.

Die Früherkennung hat sich in den letzten Jahrzehnten durch öffentliche Aufklärungskampagnen, die Einführung des Hautkrebs-Screenings und nicht zuletzt durch die Einführung der Dermatoskopie deutlich verbessert. Dennoch bleibt die visuelle Erkennung insbesondere von frühen Melanomen eine Herausforderung. Durch morphologische Überschneidungen sind Melanome selbst beim Einsatz eines Dermatoskops z. T. nur schwer von Nävi abzugrenzen. Insbesondere die Unterscheidung zwischen dysplastischen Nävi und superfiziell spreitenden Melanomen ist oft uneindeutig. Selbst Experten erreichen selten Sensitivitäts- und Spezifitätswerte über 80 Prozent [2]. Darüber hinaus ist eine signifikante Varianz in Abhängigkeit von Ausbildung und Berufserfahrung zu beobachten [3]. Daher besteht die derzeitige Praxis darin, Läsionen im Zweifelsfall zu exzidieren, die auch nur entfernt malignitätsverdächtig sind, was mit letztlich unnötigen körperlichen und seelischen Belastungen für Betroffene einhergehen kann.

Daher gibt es weiterhin hohen medizinischen Bedarf, die Methoden zur Hautkrebsfrüherkennung gezielt weiterzuentwickeln, um Hautkrebs bereits in einem sehr frühen Stadium sicher von gutartigen Läsionen unterscheiden zu können. Hier wird aller Voraussicht nach insbesondere die Analyse verdächtiger Läsionen mittels künstlicher Intelligenz (KI) die Diagnosefindung in vielfältiger Weise verändern. Künftig könnten KI-basierte Assistenzsysteme als Entscheidungshilfen den Diagnoseprozess signifikant verbessern, im Forschungsbereich erzielen sie schon jetzt hohe Genauigkeiten.

Dieser Artikel soll nach einem kurzen Überblick zu diagnostischen Verfahren zur Früherkennung pigmentierter Melanome einen detaillierten Einblick in den derzeitigen Stand zur KI-basierten Bildanalyse und die damit verbundenen Anforderungen und Herausforderungen geben.

Routinediagnostik zur Hautkrebs-Früherkennung

2008 wurde in Deutschland das Hautkrebsvorsorge-Screening eingeführt. Zu diesem Hautkrebs-Check gehört die visuelle Ganzkörperinspektion der gesamten Haut einschließlich des behaarten Kopfes sowie aller Körperfalten, ggf. gefolgt von einer chirurgischen Exzision und einer histopathologischen Befundung malignitätsverdächtiger Läsionen. Jedoch hat sich gezeigt, dass durch visuelle Diagnostik allein nur etwa 70 % aller Melanome korrekt erkannt werden.

Oft wird zusätzlich ein Auflichtmikroskop (Dermatoskop) zur Beurteilung verdächtiger Hautstellen verwendet, der Einsatz ist seit 2020 fester Bestandteil der Früherkennung. Mit diesem Mikroskop können unter Zuhilfenahme von Kontaktflüssigkeiten wie Öl und zum Teil auch polarisiertem Licht Hautstrukturen bis zum oberen Stratum reticulare beurteilt werden. Zahlreiche Studien haben gezeigt, dass sich durch Anwendung der Dermatoskopie die diagnostische Treffsicherheit erfahrener Hautärzte deutlich erhöhen lässt, insbesondere bei kleinen, flachen und/oder schwer erkennbaren Melanomen [2] [4].

Durch Darstellung der dermatoskopischen Bilder der Pigmentmale in hoher Auflösung auf einem Bildschirm (digitale Dermatoskopie) können Details, die mit bloßem Auge kaum zu erkennen sind, noch deutlicher hervorgehoben werden.

Ein Verfahren, was in einigen Praxen und Kliniken zusätzlich angeboten wird, ist die kombinierte Ganzkörperfotografie mit der digitalen Dermatoskopie, insbesondere für das Monitoring von Hochrisiko-Patienten. Dabei werden in entsprechenden Zeitintervallen Aufnahmen aller Pigmentmale angefertigt. Besonders auffällige Läsionen können zusätzlich mikroskopisch aufgenommen und vermessen werden. Durch einen detailgenauen Vergleich der Läsionen bei späteren Untersuchungen können im Verlauf auftretende dynamische Veränderungen bestehender Nävi sowie Neuentstehungen von Pigmentmalen erfasst werden. Damit wird Studien zufolge die Detektion dünner Melanome bei Patienten mit multiplen Nävi deutlich verbessert und die Exzisionsrate gutartiger Hautläsionen verringert [5].


Zwischen Forschung und klinischer Routine: zusatzdiagnostische Verfahren

Zur Untersuchung verdächtiger Hautläsionen wurden in den letzten Jahrzehnten zahlreiche neue nicht invasive, diagnostische Verfahren entwickelt, die eine verbesserte und z. T. automatisierte Bewertung dieser Läsionen ermöglichen sollen. I. d. R. müssen diese in spezialisierten Kliniken und/oder durch geschulte Experten angewendet werden.

Dabei ist die Tendenz zu beobachten, die diagnostischen Verfahren auf eine hohe Sensitivität einzustellen. So soll vermieden werden, maligne Melanome zu übersehen. Dieses Vorgehen bedingt allerdings üblicherweise eine geringere Spezifität, was im Screening zu unnötigen Exzisionen vieler gutartiger Läsionen führen kann. Zusätzlich ist auch der z. T. sehr hohe Zeitaufwand von bis zu 20 Minuten für die Analyse von nur einer Läsion zu beachten, der die Anwendbarkeit im Screening ebenfalls einschränkt.

In erster Linie der zusatzdiagnostischen Verfahren zur Beurteilung von Läsionen ist die konfokale Lasermikroskopie zu nennen, zu der 2018 erstmals ein Statement in die deutsche S3-Leitlinie aufgenommen wurde, welches dieser Methode einen zusätzlichen Nutzen bescheinigt. Besonders bei atypischen pigmentierten Läsionen kann die Anwendung konfokaler Lasermikroskopie zu einer verbesserten Spezifität in der Melanomdiagnostik beitragen [6]. Die Bildgebung mit einer lateralen Auflösung auf Zellniveau (0,5–1,0 µm) erfolgt durch die Reflektion eines in unterschiedlichen Hautschichten fokussierten Laserstrahls. Strukturen mit hoher Reflexion in der Haut sind v. a. Keratin, Melanin und Kollagen, sodass sich die konfokale Lasermikroskopie insbesondere für die Diagnostik melanozytärer Hauttumore eignet. Jedoch erlangt sie dabei nur eine relativ geringe Eindringtiefe bis in das Stratum papillare der Dermis. So werden tiefere dermale Veränderungen wie z. B. bei nodulären Melanomen nicht erfasst [7].

Vielversprechende Studienergebnisse, aber insgesamt noch weniger Daten, gibt es bisher zusätzlich für die optische Kohärenztomografie, die Raman-Spektroskopie, die Multiphotonen-Lasertomografie, die elektrische Impedanzspektroskopie oder die Multispektralanalyse, die im Folgenden kurz beschrieben werden.

Ergänzend zur konfokalen Lasermikroskopie kann die optische Kohärenztomografie eingesetzt werden. Hierbei werden Laserstrahlen des sichtbaren und infraroten Bereichs verwendet, um oberflächliches Gewebe schichtweise zu vermessen. Dies ermöglicht eine hochauflösende dreidimensionale Darstellung der Haut mit einer Eindringtiefe bis in die mittlere Dermis. Als diagnostische Merkmale werden v. a. epidermale psoriasiforme Hyperplasien, melanozytäre Nester und vertikale Strukturen erkannt, für eine exakte Diagnose reichen jedoch Sensitivität (74 %) und Spezifität (92 %) bisher nicht aus. Für die Diagnose zeigt sich die dynamische optische Kohärenztomografie vielversprechend, durch die der Blutfluss durch die Messung kleiner Variationen in der Signalintensität zwischen zwei schnell aufeinanderfolgenden Bildern zu erkennen ist und dadurch die Progression einer Läsion durch die Veränderung der Gefäßmorphologie frühzeitig erkannt werden kann [8].

Die Raman-Spektroskopie ist ein optisches Verfahren, das die inelastische Streuung von monochromatischem Licht nutzt, um Schwingungszustände von Molekülen zu analysieren. Die Detektion der Schwingungszustände der Moleküle einer Läsion beinhaltet chemische Informationen über die Zusammensetzung des Gewebes und ermöglicht darüber eine Zuordnung, ob es sich um eine benigne oder maligne Läsion handelt. Die Raman-Spektroskopie kann – auch durch die schnelle Anwendung und Analyse – bisherigen Studien zufolge als vielversprechendes, ergänzendes Werkzeug bei der Beurteilung zur Differenzierung von Läsionen angesehen werden. Eine Machbarkeitsstudie ergab für die Melanomerkennung mittels Raman-Spektroskopie in vivo eine hohe Sensitivität (0,93) und Spezifität (0,96) bei der Unterscheidung von normaler Haut. Allerdings beruhen diese Werte auf einer Fallzahl von nur 15 Melanomen [9].

Derzeit gibt es auch Ansätze, optische Kohärenztomografie mit der Raman-Spektroskopie und zusätzlich mit der Optoakustik, bei der mit einem Laser eine Schallwelle im Gewebe erzeugt wird, die dann zur Bildgebung genutzt wird, im Rahmen einer „optischen Biopsie“ zu kombinieren [10].

Die Multiphotonen-Tomografie (MPT) ist eine hochauflösende bildgebende Methode mit guter Anwendbarkeit, allerdings ist sie bislang zeitaufwendig und kostenintensiv.

Die MPT basiert auf der Multiphotonen-Anregung körpereigener autofluoreszierender Moleküle, u. a. NAD(P)H, Flavine, Melanin, Elastin oder Kollagen. Durch Wechselwirkungen zwischen dem Licht und einzelnen Molekülen kann zudem eine Frequenzverdopplung initiiert werden, die bspw. Hinweise auf die Qualität des Fasernetzwerkes der Haut zulässt. Auch können Rückschlüsse auf die Mikroumgebung getroffen werden. Somit lassen sich sowohl zelluläre als auch extrazelluläre Strukturen der Haut visualisieren. In einer prospektiven Studie konnte für die In-vivo- sowie Ex-vivo-Untersuchung melanozytärer Läsionen mittels MPT für 6 charakteristische Merkmale eine Sensitivität zwischen 71 und 95 % erreicht werden bei einer Spezifität zwischen 69 und 97 % [11].

Bei der Multispektralanalyse werden melanozytäre Hautveränderungen mit Licht verschiedener Wellenlängen beleuchtet. Die entstehenden Bilder können hinsichtlich Farbverteilung, Symmetrie und Mustern analysiert werden, woraus sich ableiten lässt, ob die Läsion eine strukturelle Desorganisation aufweist und damit auffällig ist oder nicht. Einen ersten Ansatz in der Klinik zur automatisierten Bildverarbeitung durch KI zur Klassifizierung pigmentierter Hautveränderungen, die auf einer solchen Multispektralanalyse aufbaut, stellte das MelaFind-System dar. Damit wurden melanozytäre Hautveränderungen multispektral analysiert und mit mehr als 10 000 im System hinterlegten Hautveränderungen verglichen, woraus ein Score gebildet wurde, der die Wahrscheinlichkeit des Vorliegens eines malignen Melanoms angibt. Verschiedene Studien zeigten eine hohe Sensitivität von bis zu 98 %, jedoch war die Spezifität sehr gering [12]. Auf aktuelle Forschung zu KI-basierter Bildklassifikation wird im Verlauf dieses Artikels noch detailliert eingegangen.

Die elektrische Impedanzspektroskopie (EIS) ist keine bildgebende Methode, sondern ihr Messprinzip beruht auf der Fähigkeit der Zelle, Elektrizität zu leiten und zu speichern. Atypisch verändertes Hautgewebe unterscheidet sich von gesundem Gewebe bspw. in der Zellstruktur, der Dichte des Zellverbandes oder der Beschaffenheit der Zellmembranen. So kann durch EIS anhand des Musters eines Stromflusses innerhalb einer Läsion auf regelmäßige oder irreguläre Anordnung von Zellen und dadurch auf die wahrscheinliche Dignität zurückgeschlossen werden. Auch ist es nach Einschätzung der Studienverantwortlichen möglich, durch regelmäßig wiederholte Messungen Läsionen im Zeitverlauf darzustellen, um eine Veränderung des Wertes in Richtung Malignität feststellen zu können. Dieser Wert lässt sich automatisiert durch einen Bewertungsalgorithmus aus den erhobenen Messdaten des Gewebes errechnen. Im Rahmen einer prospektiven Studie zeigte ein an EIS-Daten trainierter Klassifizierungsalgorithmus (basierend auf einer support vector machine) eine Sensitivität von mindestens 98 % [13].

Weitere nicht invasive Verfahren werden derzeit untersucht, befinden sich jedoch noch am Anfang der Entwicklung, wie bspw. die EGIR (epidermal genetic information retrieval)-Technologie oder die Laser-Doppler-Fluxmetrie zur Blutflussbestimmung.


Alternative Strategie: Verbesserte Diagnose durch KI-basierte Analyse der makroskopischen und dermatoskopischen Routine-Bilder

Deep Learning und neuronale Netze

Großes Potenzial für die Krebsfrüherkennung zeigt der Einsatz von KI bei der Bildanalyse. Als besonders effektiv für die Klassifizierung von Bilddaten, bspw. von dermatoskopischen Bildern, hat sich der Einsatz von sog. „gefalteten neuronalen Netzwerken“ (convolutional neural networks, CNN) erwiesen [14]. Diese mehrschichtigen neuronalen Netze können auch vieldimensionale Eingangsdaten verarbeiten. Das CNN wird mit einer großen Anzahl an Bilddaten und den dazugehörigen ärztlichen Diagnosen „trainiert“. Die Daten werden dabei durch eine Reihe von miteinander verbundenen Neuronen – analog zu biologischen Neuronen – geleitet. Jedes Neuron repräsentiert eine mathematische Operation. Durch iterative Rechenprozesse während des Trainings wird das „Aktionspotenzial“ jedes Neurons angepasst und optimiert, und repräsentiert Merkmale, sog. Features, die Einfluss auf die Bildklassifikationsentscheidung nehmen. Neuronale Netze sind selbst in der Lage, große Datenmengen auf diejenigen Features zu reduzieren, die für ein korrektes Ausgabeergebnis erforderlich sind [15].

Ein CNN-basiertes Klassifikationsmodell ordnet jedes Bild einer vordefinierten Klasse zu. Um die Qualität eines Klassifikators zu bewerten, wird die tatsächliche mit der zugeordneten Klasse verglichen. Für das Validieren der erzeugten Algorithmen werden die statistischen Metriken Genauigkeit, Sensitivität und Spezifität herangezogen. Die Genauigkeit ist eine sinnvolle Metrik, wenn die Gesamtleistung von Interesse ist und nicht die Leistung für eine bestimmte Klasse. Sensitivität und Spezifität hingegen geben die Leistung für eine bestimmte Klasse wieder und setzen eine binäre Klassifikation voraus, bei der nur eine positive und eine negative Klasse berücksichtigt werden (z. B. Melanom vs. Nävus). Sensitivität und Spezifität sind abhängig von einem definierten Schwellenwert. Ist die Ausgabe des neuronalen Netzes größer als der Schwellenwert, so wird der Eingang einer bestimmten Klasse zugeordnet, in diesem Fall der Klasse „Melanom“, bei Unterschreitung der Klasse „Nävus“. Somit stellt dieser Wert insbesondere einen Parameter für den trade-off zwischen Sensitivität und Spezifität dar. Eine Senkung des Schwellenwertes führt zu einer Erhöhung der Sensitivität bei einer gleichzeitigen Verringerung der Spezifität und umgekehrt. Die Abhängigkeit des Schwellenwertes der beiden Metriken Spezifität und Sensitivität wird in der Receiver-Operating-Characteristic (ROC)-Kurve dargestellt. Dabei wird die Sensitivität gegen 1-Spezifität in ein Diagramm eingetragen. Die Fläche unter dieser Kurve (area under the curve, AUC) gibt die Leistung des Klassifikators über alle Klassifikationsschwellenwerte an und wird als integrales Maß für die Genauigkeit der Algorithmen verwendet.


KI-gestützte Bildanalyse makroskopischer und dermatoskopischer Bilder pigmentierter Hautläsionen

In der Dermatologie ist das Erkennen visueller Muster grundlegende diagnostische Notwendigkeit. Daher wurden mit dem Ziel einer objektiven, verbesserten Hautkrebs-Diagnose in den vergangenen Jahren zunehmend Deep learning-Verfahren zur Bildanalyse entwickelt, die spezifische Haut-Strukturen erkennen.

Richtungsweisend zur Klassifizierung von Hautläsionen mittels neuronaler Netze zur digitalen Hautkrebserkennung war die 2017 publizierte Studie von Esteva und Kollegen [16]. Verwendet wurde ein CNN, das bereits mit mehr als 1 Million Alltagsbildern auf die Unterscheidung unterschiedlichster Objekte wie Autos, Tiere oder Häuser vortrainiert wurde. Anschließend wurde es mit mehr als 100 000 digitalen makroskopischen bzw. dermatoskopischen Bildern von unterschiedlichsten Dermatosen trainiert (mittels Transfer learning). Anhand von Bildern benigner und maligner Läsionen wurden schließlich die Fähigkeiten des CNN im Vergleich zu denen trainierter Dermatologen überprüft, Melanome von benignen Nävi sowie auch seborrhoische Keratosen und Basalzellkarzinome bzw. Plattenepithelkarzinome zu unterscheiden. Das CNN erzielte für die Unterscheidung Melanom/Nävus mit einer AUROC von 0,94 für makroskopische Bilder und 0,91 für dermatoskopische Bilder vergleichbare Ergebnisse wie die Dermatologen. Nur einer von 22 Dermatologen war der KI hinsichtlich der Melanomerkennung überlegen.

Für die Klassifizierung von pigmentierten Hautläsionen anhand von makroskopischen Bildern konnte das CNN unter experimentellen Bedingungen in weiteren Studien eine vergleichbare oder bessere diagnostische Genauigkeit erzielen als Dermatologen. Insbesondere bei der binären Klassifikationsaufgabe Melanom/Nävus erreichte das CNN hohe Genauigkeiten, doch auch in der Multiklassen-Differenzierung von verschiedenen Hauterkrankungen (u. a. aktinische Keratose, intraepitheliales Karzinom/Morbus Bowen, Plattenepithelkarzinom, Basalzellkarzinom) zeigte sich das CNN vergleichbar gut oder übertraf Dermatologen [17] [18].

Eine retrospektive Validierungsstudie ergab jedoch für die CNN-basierte binäre Klassifikation unter realistischeren Bedingungen geringere Sensitivitäts- und Spezifitätswerte als die der behandelnden Ärzte. Dabei wurde der CNN-basierte Algorithmus mit 65 behandelnden Ärzten verglichen, die ihre Diagnosen in der klinischen Realität aufzeichneten [19].

Neben der makroskopischen Bildanalyse können neuronale Netze auch zur Analyse dermatoskopischer Bilder eingesetzt werden. Zur Anwendung der bildbasierten Klassifikation werden digitale Bilder verdächtiger Hautveränderungen mit einem Dermatoskop aufgenommen und analysiert ([Abb. 1]).

Zoom
Abb. 1 Vereinfachter Ablauf der CNN-basierten Bildanalyse. a Untersuchung verdächtiger Hautläsionen mit dem Dermatoskop und Bildaufnahme. b Das CNN besteht aus einem Merkmalsextraktor, der die Bilder in Merkmalsvektoren umwandelt, und einem Klassifikator, der auf diesen Vektoren arbeitet, um zwischen vordefinierten Klassen zu unterscheiden. c Die statistische Auswertung des Modells wird durch das Auftragen von Leistungsmetriken dargestellt. Abkürzungen: AUC Area under the receiver operating curve, CNN Convolutional neural network

Eine Studie zum Nutzen von CNN in der Melanomerkennung verglich die diagnostischen Fähigkeiten eines vortrainierten CNN mit der von 58 internationalen Dermatologen und erzielte in der Diagnostik im Schnitt eine bessere Präzision (CNN ROC AUC 0,86 vs. 0,79 AUC der Dermatologen) [3]. Eine weitere Studie verglich die Genauigkeit des CNN mit der von 157 Dermatologen aus 12 Universitätskliniken in Deutschland in der Melanomerkennung. Nur 7 von 157 Dermatologen erzielten bessere Ergebnisse bez. der Spezifität und Sensitivität als das CNN [20]. Auch weitere Studien zeigen im Forschungsbereich sehr hohe Vorhersagegenauigkeiten bei der Unterscheidung und Klassifizierung von Nävi und Melanomen anhand von Bilddaten für neuronale Netze [21] [22], ebenso wie in Multiclass-Ansätzen [23].

Klinische Studien zum Einsatz in der klinischen Praxis stehen jedoch noch aus, um die grundsätzliche Anwendbarkeit und den Nutzen solcher Systeme in der klinischen Praxis sicher zu belegen.



Anforderungen und Herausforderungen für KI-basierte diagnostische Assistenzsysteme

Die Etablierung in der dermatologischen Routinediagnostik ruft Risikoabschätzungsfragen hervor und stellt hohe Anforderungen an die Transparenz und Sicherheit des Entscheidungsprozesses der KI-basierten Assistenzsysteme. Sie hängt von vielen Faktoren ab, u. a. von der Akzeptanz der Anwender und Betroffenen, den Einsatzmöglichkeiten, der Praktikabilität sowie der Interpretierbarkeit und damit der Kontrollierbarkeit der Ergebnisse durch den Nutzer [24].

Grundwahrheit und Batch-Effekte

Die KI-Systeme geben eine Wahrscheinlichkeit an, ob ein Melanom vorliegt. Bei der Übertragung der Algorithmen in die Praxis, wenn Therapieentscheidungen davon abhängen, müssen die Ergebnisse besonders verlässlich und reproduzierbar sein. Ein wichtiger Aspekt ist hierbei, dass der Algorithmus nur so gut sein kann, wie die „Grundwahrheit“ der Daten, mit denen er trainiert wurde. Die Einordnung (das Label) muss objektiv und verlässlich sein, sollte also optimalerweise nicht nur auf der Einschätzung eines einzelnen Arztes beruhen, sondern bspw. durch ein Dermatologen-Panel erfolgen oder durch histologische Analysen bestätigt sein. Auch eine Integration von geeigneten Patientendaten oder auch molekularbiologischen Daten könnte durch den zusätzlichen Informationswert die Grundwahrheit für die Trainingsdaten verbessern.

Zum anderen muss der Trainings-Datensatz möglichst divers sein: Merkmale, die nicht im Trainingssatz enthalten sind, können vom KI-basierten Klassifikator nicht gelernt werden.

Die Genauigkeit von Klassifikationssystemen kann zudem durch sog. Batch-Effekte beeinträchtigt werden, wenn die KI anstelle von oder zusätzlich zu den biologisch relevanten Faktoren versteckte Variablen zu unterscheiden lernt. Solche versteckten Variablen können bspw. das Patientenalter sein, künstliche Hautmarkierungen oder das Kamerasystem, mit dem die Aufnahme der Läsion gemacht wurde. Sind bspw. Farbmarkierungen überproportional häufig auf Bildern von Melanomen abgebildet, kann der Algorithmus lernen, diese mit der Diagnose Melanom zu assoziieren. Bei der Entwicklung der Algorithmen sollte daher besonders auf Stratifizierung der Datensätze geachtet werden, um solche Batch-Effekte zu vermeiden. Auch ein möglichst diverser Datensatz kann dem Lernen von zufälligen Korrelationen entgegenwirken.


Übertragbarkeit

Ein zentraler Baustein für eine erfolgreiche Translation von KI-basierten Assistenzsystemen aus dem Forschungskontext in die klinische Routine ist die Robustheit und somit Generalisierbarkeit auf Daten aus verschiedenen Einrichtungen. Wird ein Algorithmus nur auf Daten aus einer oder wenigen Quellen trainiert, erreicht er i. d. R. auf externen Daten anderer Quellen eine deutlich schlechtere Performance. Nach derzeitigem Verständnis ist dies u. a. auf Faktoren wie bspw. unterschiedliche Bildaufnahmemodalitäten zurückzuführen. Somit kann der Algorithmus das Gelernte an andersartigen Bildern nur schwer anwenden, weil er auch biologisch relevante Features in den neuen Bildern nicht wiedererkennt. Um eine gleichbleibend hohe Leistung auf „out-of-distribution“-Datensätzen verschiedener Herkunft zu gewährleisten, können diese Unterschiede durch Methoden zur Normalisierung in einheitliche Form gebracht werden. So kann bspw. der Farbraum normalisiert werden, um die Farbverteilung zwischen Trainings- und Testbildern anzugleichen. Auch ein Training der Algorithmen auf möglichst großen und vielfältigen Datensätzen begünstigt die Generalisierbarkeit. Dabei können Datensätze auch durch Augmentierungstechniken erweitert werden, um die Diversifizierung der Trainingsdaten, bspw. durch Spiegelung der Bilder, künstlich zu erhöhen.


Akzeptanz

Entscheidend für den erfolgreichen Einsatz von KI in der Praxis ist die Akzeptanz sowohl der Ärzte als auch der Patienten. Studien haben gezeigt, dass beide Personengruppen gegenüber digitalen Diagnosesystemen positiv eingestellt sind. Eine internationale Umfrage unter Dermatologen zeigt, dass die Mehrheit der Teilnehmer der Meinung ist, dass die KI die Dermatologie verbessern wird und Teil der medizinischen Ausbildung sein sollte [25]. Auch Patienten sehen einen großen potenziellen Nutzen der KI im Bereich der Hautkrebsdiagnostik [26]. Sie erwarten sich von einem KI-basierten Assistenzsystem eine Reduzierung der Anzahl übersehener Melanome sowie der unnötig durchgeführten Operationen harmloser Läsionen. Jedoch ist die Akzeptanz eng daran geknüpft, dass die Entscheidungsfindung der computerassistierten Diagnosesysteme als transparent, nachvollziehbar und zuverlässig wahrgenommen wird [27] [28].


Transparenz und Sicherheit

Neuronale Netze sind selbst in der Lage, aus großen Datenmengen diejenigen Features auszuwählen und zu gewichten, die möglichst häufig zu einem korrekten Ausgabeergebnis führen. Welche Features bzw. Feature-Kombinationen das CNN genau nutzt, ist aber nicht ohne Weiteres zu erkennen. Das macht die Entscheidungsabläufe nicht lückenlos nachvollziehbar, da sie in der Struktur und einer Vielzahl von Gewichtungswerten „versteckt“ sind. Für medizinische Anwendungen ist dies ein erheblicher Nachteil, wenn daraufhin Entscheidungen und Lösungsfindungen nicht nachvollzogen werden können. Ansätze zur Risikobeherrschung sind aufwendig und konterkarieren die Vorteile der maschinellen Verarbeitung wie Geschwindigkeit und Reproduzierbarkeit. Daher werden vermehrt Verfahren zur Erklärbarkeit entwickelt, um die Strukturen aufzuzeigen, auf die sich der Algorithmus zur Ergebnisfindung stützt. Das können bspw. Heatmaps sein, wo durch Visualisierung die Regionen besonders hervorgehoben werden, auf denen die Entscheidung beruht, oder auch die Ausgabe ähnlicher Bilder. Dadurch können potenzielle Fehler und Unsicherheiten des KI-basierten Diagnosetools eher aufgedeckt werden und die Sicherheit für den Patienten steigt. Derzeit ist eine lückenlose Transparenz der KI jedoch kaum erreichbar.


Interaktion menschlicher und künstlicher Intelligenz

Studien deuten an, dass die Kombination von Mensch und Maschine bessere Ergebnisse in Bezug auf diagnostische Genauigkeit erzielen könnte, verglichen mit denen von KI oder Ärzten allein [29] [30]. Algorithmen sollten den Arzt bei der Diagnose demnach nicht ersetzen, sondern unterstützend eingesetzt werden, um die Diagnostik insgesamt zu verbessern. Während die computergestützten Bildklassifikationssysteme eine optische Momentaufnahme analysieren, sind zur Diagnosestellung durch den Arzt oft zusätzlich die Verlaufsbeobachtung, das Tastergebnis, die Einschätzung, ob es sich um einen Risikopatienten handelt, und der Vergleich mit pigmentierten Läsionen desselben Patienten entscheidend. Derzeit zeigen kombinierte Klassifikatoren, in die zusätzliche Daten integriert werden, noch keine zufriedenstellende Steigerung der Performance, könnten bei geeigneter Auswahl, Zusammenstellung und Wichtung zukünftig aber die Diagnose möglicherweise durch KI noch exakter stellen. Durch unabhängige Entscheidungen von Arzt und KI, die am Ende durch den Arzt interpretiert würden, der die endgültige Diagnose festlegt, könnten jedoch eine übermäßige Abhängigkeit von der KI verhindert und eine mögliche Diskrepanz zwischen KI und Arzt berücksichtigt werden. Eine verbesserte Erklärbarkeit der KI-basierten Systeme könnte zudem eine Plausibilitätskontrolle durch den Arzt ermöglichen, wodurch potenzielle Fehler durch das CNN ausgeglichen und so die Genauigkeit insgesamt erhöht werden könnte.

Dies könnte auch deutlich zur Steigerung der Akzeptanz solcher Systeme in der klinischen Praxis beitragen. Wie die Zusammenarbeit zwischen Mensch und Maschine optimal gestaltet werden sollte, muss noch in entsprechenden Studien untersucht werden.



Fazit

Zahlreiche Studien zeigen, dass die KI-basierte Bildanalyse grundsätzlich das Potenzial hat, die Melanomfrüherkennung durch Erhöhung der Spezifität und Sensitivität zu verbessern und unnötige Exzisionen benigner Veränderungen zu vermeiden. KI-gestützte Diagnosesysteme sind in der Lage, Merkmale schnell, quantitativ, objektiv und reproduzierbar zu erfassen. Allerdings wurden die Studien bislang in experimentellen Umgebungen durchgeführt. Klinische Studien stehen noch aus, um den Nutzen in der klinischen Praxis sicher zu belegen. Entscheidend für den erfolgreichen Einsatz ist neben einer hohen diagnostischen Genauigkeit v. a. die Transparenz und Übertragbarkeit der KI-Systeme. Um diese Hürden abschließend zu überwinden, wird intensiv an Verfahren zur Erklärbarkeit, Datennormalisierung und Generalisierung gearbeitet, die über die bisherigen Ansätze und Herangehensweisen hinausgehen. Analysen der Auswirkungen KI-basierter Systeme auf Ärzte, Patienten sowie den Ablauf der Diagnosestellung werden zeigen, in welcher Form computergestützte Assistenzsysteme in der Dermatologie den größten Nutzen bringen können.



Interessenkonflikt

Die Autoren deklarieren die folgenden finanziellen Interessen/persönlichen Beziehungen, die als potenzielle konkurrierende Interessen betrachtet werden können: T. J. B. möchte offenlegen, dass er der Inhaber der Smart Health Heidelberg GmbH (Handschuhsheimer Landstr. 9/1, 69120 Heidelberg, Deutschland; https://smarthealth.de) ist, die außerhalb der eingereichten Arbeit die Online-Hautarzt-Apps AppDoc (https://online-hautarzt.net) und Intimarzt (https://intimarzt.de) sowie den Online-Arztdienst doc2go (https://doc2go.de) entwickelt hat.


Korrespondenzadresse

Dr. med. Titus J. Brinker
DKFZ Heidelberg
Im Neuenheimer Feld 280
69120 Heidelberg
Deutschland   

Publication History

Article published online:
16 March 2022

© 2022. Thieme. All rights reserved.

Georg Thieme Verlag KG
Rüdigerstraße 14, 70469 Stuttgart, Germany


Zoom
Abb. 1 Vereinfachter Ablauf der CNN-basierten Bildanalyse. a Untersuchung verdächtiger Hautläsionen mit dem Dermatoskop und Bildaufnahme. b Das CNN besteht aus einem Merkmalsextraktor, der die Bilder in Merkmalsvektoren umwandelt, und einem Klassifikator, der auf diesen Vektoren arbeitet, um zwischen vordefinierten Klassen zu unterscheiden. c Die statistische Auswertung des Modells wird durch das Auftragen von Leistungsmetriken dargestellt. Abkürzungen: AUC Area under the receiver operating curve, CNN Convolutional neural network