3 Fragen an…

Dr. Rosa E. Martín Peña

Gruppenleiterin

Dr. Rosa E. Martín Peña untersucht die ethischen und erkenntnistheoretischen Dimensionen medizinischer KI, insbesondere im Hinblick auf Erklärbarkeit, algorithmische Verzerrung und Black-Box-Phänomene. Ein wesentlicher Beitrag ihrer Forschung liegt darin, aufzuzeigen, wie KI-Systeme das klinische Denken unter Unsicherheit verändern und welche Rolle dabei der verantwortungsvolle Umgang mit unterschiedlichen Datentypen im Gesundheitswesen spielt. Ziel ihrer Arbeit ist es, verantwortungsvolle Entscheidungsprozesse zwischen Mensch und KI zu fördern und interdisziplinäre Zusammenarbeit voranzutreiben.

1.

Wie gehen wir mit der Unsicherheit um, dass selbst hochpräzise KI-Systeme falsche Entscheidungen treffen können?

Die Unsicherheit in der KI ist nicht nur eine Frage der Genauigkeit, sondern spiegelt auch die menschlichen Erwartungen an Perfektion und Klarheit wider. Wir hoffen oft, dass Maschinen die Mehrdeutigkeit, mit der wir zu kämpfen haben, beseitigen werden. Aber die Geschichte erinnert uns daran, dass Unsicherheit schon immer Teil der Entscheidungsfindung war. Bevor Röntgenstrahlen oder sogar grundlegende Hygienemaßnahmen die Medizin veränderten, arbeiteten Ärzte mit begrenzten und oft unzuverlässigen Informationen.

Im Laufe der Zeit haben wir Instrumente entwickelt, die unsere Wahrnehmung weit über das hinaus erweitern, was unsere Sinne zulassen, von Nanometern des Lichts bis hin zu tiefen Gehirnaktivitäten. Die künstliche Intelligenz setzt diesen Weg fort und bietet neue Möglichkeiten, Muster zu erkennen und Vorhersagen zu treffen. Doch selbst die fortschrittlichsten Modelle haben ihre Grenzen. Einige Aspekte der Realität, wie fehlende Daten, wechselnde Kontexte oder menschliche Werte, lassen sich nach wie vor nur schwer rechnerisch erfassen.

Besonders deutlich wird dies in Bereichen wie der Onkologie oder der Intensivmedizin, wo Prognosen auf komplexen, sich entwickelnden Daten beruhen und die Unsicherheit ein integraler Bestandteil der klinischen Beurteilung ist. Heutzutage können technische Methoden wie Konfidenzintervalle, Modellkalibrierung oder Robustheitsanalysen dabei helfen, die Unsicherheit zu quantifizieren und zu bewältigen. Kein statistisches Verfahren kann jedoch die normative Mehrdeutigkeit vollständig auflösen, die entsteht, wenn KI-Systeme bei Entscheidungen eingesetzt werden, bei denen es um Menschenleben geht.

Anstatt zu versuchen, die Unsicherheit zu beseitigen, müssen wir lernen, mit ihr zu arbeiten. Das bedeutet, dass wir klären müssen, was KI kann und was nicht, und dass wir Entscheidungsfindungssysteme entwerfen müssen, die Unsicherheit als eine Eigenschaft und nicht als einen Makel betrachten. Indem wir diese Grenzen sichtbar machen, verlieren wir nicht das Vertrauen in die KI, sondern wir gewinnen die Fähigkeit, ihr mit Bedacht zu vertrauen und sie verantwortungsvoll in die menschliche Entscheidungsfindung einzubinden.

2.

Was bedeutet Gerechtigkeit im Zusammenhang mit medizinischer KI, und wie lässt sie sich konkret operationalisieren?

Bei der medizinischen KI geht es nicht nur um Gleichbehandlung oder allgemeinen Zugang, sondern auch um die Anerkennung von Asymmetrien bei Daten, Ressourcen und Lebenserfahrungen. Gerechtigkeit zu operationalisieren bedeutet, nicht zu fragen: „Funktioniert dieses System für die meisten?“, sondern vielmehr: „Bei wem versagt es, und warum?“

Konkret bedeutet dies die Verwendung repräsentativer Datensätze, die Durchführung regelmäßiger Bias-Audits, die Anwendung aufgeschlüsselter Leistungsmetriken für verschiedene Untergruppen und die Sicherstellung der Beteiligung von Interessengruppen bereits in den frühesten Phasen der Systemgestaltung. Dazu gehört auch die Schaffung von Mechanismen zur Anfechtbarkeit, die dem Einzelnen nicht nur das Recht, sondern auch die praktischen Mittel geben, Entscheidungen, die seine Gesundheit und Würde betreffen, zu verstehen, zu hinterfragen und anzufechten.

Gerechtigkeit erfordert außerdem die Generierung von kontextbezogenem Wissen. So schneiden beispielsweise viele Modelle zur Vorhersage des kardiovaskulären Risikos bei Frauen oder rassischen Bevölkerungsgruppen schlechter ab, weil sie auf homogenen, männlich geprägten Datensätzen trainiert wurden. Auch die Unterdiagnose von Autoimmunerkrankungen bei Frauen oder die Fehldiagnose von Angstzuständen bei Patienten mit chronischem Müdigkeitssyndrom verdeutlichen, wie KI seit langem bestehende blinde Flecken in der Diagnostik reproduzieren kann, wenn sie nicht kritisch untersucht wird.


Bei der Gestaltung im Sinne der Gerechtigkeit geht es also nicht nur um die Daten, die wir verwenden, sondern auch um die Fragen, die wir formulieren, und die Muster, die wir priorisieren. Gerechtigkeit ist in diesem Zusammenhang kein feststehendes Ergebnis, sondern ein fortlaufender normativer Prozess, der Bescheidenheit, Wachsamkeit und integratives Denken erfordert und der genauso rigoros bewertet werden muss wie jede andere Systemleistungskennzahl.


3.

Wie können wir sicherstellen, dass ethische Grundsätze wie Fairness und Vielfalt von Anfang an in die Gestaltung von Trainingsdaten und -prozessen integriert werden, um Verzerrungen zu vermeiden?

Die Verzerrungen von KI-Systemen sind keine Anomalien, sondern spiegeln die Art und Weise wider, wie Daten in der Vergangenheit gesammelt, gekennzeichnet und nach Prioritäten geordnet wurden, und wie andere Formen des Wissens systematisch ignoriert wurden. So wurde in einer viel zitierten Studie festgestellt, dass ein Algorithmus, der in US-Krankenhäusern zur Zuteilung von Pflegeleistungen für Hochrisikopatienten verwendet wird, die gesundheitlichen Bedürfnisse schwarzer Patienten systematisch unterschätzt, weil er sich auf historische Gesundheitsausgaben stützt, die einen ungleichen Zugang zur Pflege widerspiegeln, nicht aber den tatsächlichen klinischen Bedarf. Ein weiteres Beispiel ist die anhaltende Unterdiagnose von Frauen in der Medizin, einem Bereich, der lange Zeit von männlich geprägten Symptomprofilen und klinischen Standards geprägt war.

Dies sind keine isolierten Fehler. Sie veranschaulichen, wie KI-Systeme bestehende Ungerechtigkeitsmuster verstärken und sogar noch vergrößern können, wenn ethische Grundsätze nicht von Anfang an berücksichtigt werden. Insbesondere die medizinische KI hat enorme normative Auswirkungen, denn sie hilft nicht nur bei der Diagnose, sondern auch bei der Definition dessen, was als normal, gesund oder pathologisch gilt.

Die Integration von Fairness und Vielfalt erfordert daher mehr als technische Lösungen. Es erfordert ein Überdenken der grundlegenden Annahmen, was als Evidenz zählt, wessen Erfahrungen repräsentiert werden und wie Unterschiede und Unsicherheiten behandelt werden. Aus technischer Sicht bedeutet dies die Anwendung von Fairness-Metriken für Untergruppen, das Testen auf kontrafaktische Fairness und den Einsatz von Datendokumentationstools wie Model Cards und Datasheets for Datasets, um die Transparenz der Datenherkunft, der Einschränkungen und der Repräsentativität sicherzustellen. Diese Tools helfen dabei, Fairness von einem abstrakten Wert zu einer operativen Praxis zu machen, die in die Arbeitsabläufe der Modellentwicklung eingebettet ist.

Der Bereich der Maschinenethik spielt ebenfalls eine Schlüsselrolle, und zwar nicht nur durch die externe Anwendung ethischer Grundsätze, sondern auch durch die Kodierung normativer Überlegungen in intelligenten Systemen, die Entscheidungen in Richtung von Werten wie Gleichheit, Würde und Respekt für Unterschiede lenken.

Letztlich geht es bei der ethischen Integration nicht nur darum, frühere Vorurteile zu korrigieren, sondern auch darum, die Zukunft des Gesundheitswesens durch Backcasting absichtsvoll zu gestalten: Wir definieren die Art der Zukunft des Gesundheitswesens, die wir mit KI unterstützen wollen, und arbeiten rückwärts, um zu erfahren, wie wir heute Daten sammeln, Modelle strukturieren und Entscheidungen treffen.