Experiment enthüllt „Shortcut-Problem“ der künstlichen Intelligenz bei medizinischen Diagnosen
Verblüffender Effekt: Kann ein Knie-Röntgenbild unseren Bierkonsum oder die Vorliebe für mexikanisches Bohnenmus verraten? Einer künstlichen Intelligenz zufolge schon – und das überraschend treffsicher, wie ein Experiment enthüllt. Obwohl es keinerlei realen medizinischen Zusammenhang gibt, erkannten die KI-Modelle ein Muster. Grund dafür ist ein Effekt, der als „Shortcut-Learning“ bezeichnet wird – und dieser ist extrem hartnäckig, wie Forschende in „Scientific Reports“ berichten.
Künstliche Intelligenz verändert nicht nur zunehmend unseren Alltag, auch in der Medizin haben KI-Systeme längst Einzug gehalten. Ihre uns überlegene Fähigkeit, große Datenmengen zu analysieren und darin selbst subtile Gesetzmäßigkeiten zu erkennen, macht KI-Systeme zu wertvollen Diagnosehelfern. Sie können beispielsweise ALS, Brustkrebs oder Alzheimer an für uns nicht erkennbaren Veränderungen diagnostizieren.
„Shortcut“ durch Irreführende Muster
Doch die Sache hat einen Haken: „KI hat zwar das Potenzial, die medizinische Bildauswertung zu transformieren, aber wir müssen vorsichtig sein“, sagt Seniorautor Peter Schilling vom Dartmouth-Hitchcock Medical Center in den USA. „Diese Modelle können Muster sehen, die wir nicht erkennen – aber nicht alle diese Muster sind relevant oder verlässlich.“ Weil KIs auf Basis neuronaler Netzwerke den medizinischen Hintergrund nicht wirklich verstehen, ziehen sie ihre Schlüsse oft auch aus fachfremden, zufälligen Mustern in den Daten.
Um herauszufinden, wie anfällig KI-Systeme für dieses sogenannte „Shortcut-Learning“ ist, haben Schilling und sein Team ein auf Bildauswertungen spezialisiertes KI-System auf die Probe gestellt. Dafür trainierten sie das neuronale Netzwerk zunächst mit gut 18.000 Röntgenaufnahmen von Knien, die im Laufe von rund zehn Jahren von fast 5.000 US-Patienten erstellt worden waren. Zusätzlich erhielt die künstliche Intelligenz Informationen auch zur Lebensweise und Ernährung der Patienten, die in den Untersuchungen erfragt worden waren.
Prognose für Bohnenmus und Bier
Dann folgte der entscheidende Schritt: Das Team bat das KI-Modell, anhand der Knie-Röntgenaufnahmen festzustellen, ob der betreffende Patient im letzten Jahr mexikanisches Bohnenmus gegessen hatte. Ein zweites, genauso trainiertes Modell sollte anhand der Röntgenaufnahmen den Bierkonsum der Patienten ermitteln. „Damit brachten wir die KI dazu, etwas zu tun, was eigentlich nicht möglich ist: Anhand der Knie-Röntgenbilder vorherzusagen, welche Patienten Bohnenmus oder Bier meiden“, erklären die Forschenden.
Für uns ist sofort klar: Medizinisch gesehen ergeben diese Fragen wenig Sinn. Denn weder Bier noch Bohnenmus hinterlassen spezifische Spuren in unseren Knien. Doch die künstliche Intelligenz sah dies anders: Sie glaubte, einen Zusammenhang zu erkennen – und lag tatsächlich oft richtig. Ihre Trefferquote lag für Bohnenmus bei 63 Prozent, bei Bier sogar bei 73 Prozent, wie Schilling und sein Team berichten.
Treffsicher, aber unsinnig
„Damit demonstrieren wir, wie neuronale Netzwerke überraschend akkurate Prognosen treffen können, die völlig aus der Luft gegriffen sind – sie haben keinerlei medizinische oder plausible Erklärung „, konstatieren die Forschenden. „Die KI-Modelle enthüllen keineswegs eine in unserem Knien verborgene Wahrheit über Bohnen oder Bier. Stattdessen ’schummeln‘ sie durch Shortcut-Learning.“
Shortcut-Learning bedeutet, dass KI-Systeme die ihnen gestellte Aufgabe lösen, indem sie zufällige, einfachere Korrelationen auswerten statt die komplexeren, wirklich bestehenden Zusammenhänge zu erkennen. „Dieses Phänomen ist bei der allgemeinen KI-Bildauswertung schon länger bekannt, es war aber weniger klar, ob es auch bei der medizinischen Bildauswertung auftritt“, erklärt das Team. Ihre Experimente zeigen nun, dass die künstliche Intelligenz fast beliebige Korrelationen aus Medizindaten herauslesen kann – egal wie absurd und weit hergeholt sie sind.
Woher hat die KI ihre Erkenntnisse?
Doch warum sind die KI-Modelle trotzdem so treffsicher? Nähere Analysen ergaben, dass die KI-Systeme auch Informationen ausgewertet hatten, die mit dem Knie nichts zu tun haben. Darunter waren beispielsweise der Ort der Röntgenaufnahme, das Geschlecht sowie die ethnische Zugehörigkeit der Patienten. Interessant jedoch: Selbst als Schilling und sein Team die offensichtlichen Beschriftungen aus den Aufnahmen entfernten, sank die Trefferquote kaum.
„Es ist hartnäckig: Selbst wenn man die KI daran hindert, eines dieser Elemente auszuwerten, findet es ein anderes, für uns nicht ersichtliches Muster“, berichtet Erstautor Brandon Hill vom Dartmouth-Hitchcock Center. Der Eifer, mit dem künstliche Intelligenz solchen Shortcuts folgt, sei erstaunlich. „Es ist verlockend anzunehmen, dass das KI-Modell die Daten auf die gleiche Weise sieht wie wir – aber das ist nicht der Fall. Es hat keine Denkweise oder Logik, wie wir uns das vorstellen.“
„KI ist wie ein Alien“
Nach Ansicht des Forschungsteams unterstreicht ihr Experiment, wie wichtig eine strikte Überprüfung und Bewertung von KI-gestützten Auswertungen und Diagnosen ist. „Wir müssen diese Risiken kennen, um irreführende Schlussfolgerungen zu verhindern und die wissenschaftliche Integrität zu erhalten“, sagt Schilling. Entscheidend sei aber auch das Wissen darum, wie schwer es ist, das Shortcut-Learning zu verhindern.
„Der Umgang mit künstlicher Intelligenz ähnelt in einigen Aspekten der Kommunikation mit einem Außerirdischen“, sagt Hill. Wir durchschauen oft nicht, wie die KI „tickt“ und welche subtilen Informationen sie auswertet. (Scientific Reports, 2024; doi: 10.1038/s41598-024-79838-6)
Quelle: Dartmouth College