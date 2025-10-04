KI-"Ärzte" betrügen bei medizinischen Prüfungen dpa/picture alliance via Getty Images

Die fortschrittlichsten künstlichen Intelligenzsysteme der Welt betrügen im Wesentlichen bei medizinischen Tests, indem sie beeindruckende Ergebnisse nicht durch echtes medizinisches Wissen, sondern durch das Ausnutzen von Schlupflöchern in der Testgestaltung erzielen. Diese Entdeckung hat massive Auswirkungen auf die hundert Milliarden schwere medizinische KI-Branche und jeden Patienten, der mit KI-gestützter Gesundheitsversorgung in Berührung kommen könnte.

Das Problem des Betrugs durch medizinische KI

Stellen Sie sich medizinische KI-Benchmarks wie standardisierte Tests vor, die messen, wie gut künstliche Intelligenzsysteme Medizin verstehen. So wie Studenten SATs absolvieren, um zu beweisen, dass sie bereit für das College sind, absolvieren KI-Systeme diese medizinischen Benchmarks, um zu zeigen, dass sie bereit sind, Ärzten bei der Diagnose von Krankheiten und der Empfehlung von Behandlungen zu helfen.

Aber eine kürzlich veröffentlichte bahnbrechende Studie von Microsoft Research zeigt, dass diese KI-Systeme nicht wirklich Medizin lernen. Sie werden einfach nur sehr gut darin, Tests zu absolvieren. Es ist, als würde man entdecken, dass ein Student perfekte SAT-Ergebnisse nicht durch das Verständnis von Mathematik und Lesen erzielt hat, sondern indem er auswendig gelernt hat, welche Antwortmöglichkeit am häufigsten richtig ist.

Forscher haben sechs führende KI-Modelle strengen Belastungstests unterzogen und festgestellt, dass diese Systeme hohe medizinische Punktzahlen durch ausgeklügelte Prüfungstricks statt durch echtes medizinisches Verständnis erzielen.

Wie KI-Systeme das System betrügen

Das Forschungsteam entdeckte mehrere Wege, wie KI-Systeme medizinische Kompetenz vortäuschen, mit Methoden, die einen menschlichen Studenten fast sicher zum Ausschluss führen würden:

Als Forscher einfach die Reihenfolge der Multiple-Choice-Antworten änderten, beispielsweise Option A zu Option C verschoben, sank die KI-Leistung deutlich. Das bedeutet, dass die Systeme lernten, "die Antwort ist normalerweise an Position B" anstatt "Pneumonie verursacht diese spezifischen Symptome."

Bei Fragen, die die Analyse medizinischer Bilder wie Röntgenaufnahmen oder MRTs erforderten, lieferten KI-Systeme immer noch richtige Antworten, selbst wenn die Bilder vollständig entfernt wurden. GPT-5 behielt beispielsweise 37,7% Genauigkeit bei visuell erforderlichen Fragen bei, selbst ohne Bild, weit über dem Zufallsniveau von 20%.

KI-Systeme fanden heraus, wie sie Hinweise in falschen Antwortmöglichkeiten nutzen können, um die richtige zu erraten, anstatt echtes medizinisches Wissen anzuwenden. Forscher stellten fest, dass diese Modelle stark auf die Formulierung falscher Antworten angewiesen waren, bekannt als "Distraktoren". Als diese Distraktoren durch nicht-medizinische Begriffe ersetzt wurden, brach die Genauigkeit der KI ein. Dies zeigte, dass sie sich auf Prüfungstricks statt auf echtes Verständnis stützte.

Ihre Gesundheitsversorgung mit KI

Diese Forschung kommt zu einer Zeit, in der KI sich rapide im Gesundheitswesen ausbreitet. Achtzig Prozent der Krankenhäuser nutzen jetzt KI, um die Patientenversorgung und betriebliche Effizienz zu verbessern, wobei Ärzte sich zunehmend auf KI für alles verlassen, vom Lesen von Röntgenbildern bis hin zum Vorschlagen von Behandlungen. Doch diese Studie legt nahe, dass aktuelle Testmethoden nicht zwischen echter medizinischer Kompetenz und ausgeklügelten Prüfungsalgorithmen unterscheiden können.

Die Microsoft Research-Studie ergab, dass Modelle wie GPT-5 80,89% Genauigkeit bei medizinischen Bildherausforderungen erreichten, aber auf 67,56% fielen, wenn Bilder entfernt wurden. Dieser Rückgang um 13,33 Prozentpunkte offenbart eine versteckte Abhängigkeit von nicht-visuellen Hinweisen. Noch besorgniserregender ist, dass die Modellgenauigkeit um mehr als dreißig Prozentpunkte einbrach, als Forscher medizinische Bilder durch solche ersetzten, die andere Diagnosen unterstützten, obwohl sich die Textfragen nicht änderten.

Betrachten Sie dieses Szenario: Ein KI-System erreicht eine 95%-ige Punktzahl bei medizinischen Diagnosetests und wird in Notaufnahmen eingesetzt, um Ärzten zu helfen, Patienten schnell zu beurteilen. Aber wenn dieses System seine hohe Punktzahl durch Prüfungstricks statt durch medizinisches Verständnis erreicht hat, könnte es kritische Symptome übersehen oder unangemessene Behandlungen empfehlen, wenn es mit echten Patienten konfrontiert wird, deren Zustände nicht mit den Mustern übereinstimmen, die es aus Testfragen gelernt hat.

Der medizinische KI-Markt soll bis 2030 hundert Milliarden überschreiten, wobei Gesundheitssysteme weltweit stark in KI-Diagnosewerkzeuge investieren. Gesundheitsorganisationen, die KI-Systeme auf Basis beeindruckender Benchmark-Ergebnisse kaufen, könnten unwissentlich erhebliche Risiken für die Patientensicherheit einführen. Die Microsoft-Forscher warnen, dass "medizinische Benchmark-Ergebnisse nicht direkt die Einsatzbereitschaft in der realen Welt widerspiegeln".

Die Auswirkungen gehen über Testergebnisse hinaus. Die Microsoft-Studie ergab, dass KI-Modelle, wenn sie gebeten wurden, ihre medizinische Argumentation zu erklären, oft "überzeugende, aber fehlerhafte Begründungen" generierten oder "richtige Antworten mit erfundenen Begründungen" lieferten. Ein Beispiel zeigte ein Modell, das korrekt Dermatomyositis diagnostizierte, während es visuelle Merkmale beschrieb, die im Bild nicht vorhanden waren, da überhaupt kein Bild bereitgestellt wurde.

Selbst während die KI-Einführung beschleunigt wird, bereitet die schnelle Einführung von KI in der Medizin Forschern Sorgen, wobei Experten warnen, dass Krankenhäuser und Universitäten aktiv werden müssen, um Lücken in der Regulierung zu schließen.

Das Problem der KI-Mustererkennung

Im Gegensatz zu menschlichen Medizinstudenten, die lernen, indem sie verstehen, wie Krankheiten den menschlichen Körper beeinflussen, lernen aktuelle KI-Systeme durch das Finden von Mustern in Daten. Dies erzeugt, was die Microsoft-Forscher "Shortcut-Learning" nennen, das Finden des einfachsten Wegs zur richtigen Antwort ohne die Entwicklung eines echten Verständnisses.

Die Studie ergab, dass KI-Modelle Pneumonie möglicherweise nicht durch die Interpretation radiologischer Merkmale diagnostizieren, sondern indem sie lernen, dass "produktiver Husten" plus "Fieber" statistisch mit Pneumonie in Trainingsdaten zusammen auftritt. Dies ist Mustererkennung, kein medizinisches Verständnis.

Aktuelle Forschung aus Nature hebt ähnliche Bedenken hervor und zeigt, dass das Vertrauen in KI-unterstützte Gesundheitssysteme problematisch bleibt, wenn diese Systeme kein echtes Verständnis medizinischer Kontexte demonstrieren können.

Vorwärts mit medizinischer KI

Die Microsoft-Forscher plädieren für ein Umdenken bei der Prüfung medizinischer KI-Systeme. Anstatt sich auf Benchmark-Ergebnisse zu verlassen, benötigen wir Evaluierungsmethoden, die erkennen können, wenn KI-Systeme Tests manipulieren, anstatt Medizin zu lernen.

Die medizinische KI-Branche steht vor einem kritischen Moment. Die Erkenntnisse von Microsoft Research zeigen, dass beeindruckende Benchmark-Ergebnisse eine Illusion der Einsatzbereitschaft geschaffen haben, die schwerwiegende Folgen für die Patientensicherheit haben könnte. Während KI sich weiter im Gesundheitswesen ausbreitet, müssen unsere Methoden zur Überprüfung dieser Systeme sich weiterentwickeln, um ihrer Komplexität und ihrem Potenzial für ausgeklügeltes Versagen gerecht zu werden.