KI-Forschung:: „Clever-Hans-Effekt“ führt zu unerkanntem Dominoeffekt
Künstliche Intelligenz revolutioniert Wissenschaft, Industrie und medizinische Diagnostik – oft basierend auf Modellen wie GPT, Llama oder CLIP. Doch Forscher der TU Berlin haben nun ein alarmierendes Problem nachgewiesen: Fehlerhafte Vorhersagestrategien können sich unbemerkt über gängige maschinelle Lernmodelle verbreiten – mit potenziell weitreichenden Folgen.

Der breite Einsatz generativer Künstlicher Intelligenz (KI) bringt eine entscheidende Frage mit sich: Wie transparent und zuverlässig treffen diese Modelle ihre Entscheidungen? Viele KI-Modelle wie GPT oder CLIP basieren auf sogenannten Foundation-Modellen, die mit unüberwachtem Lernen (unsupervised Learning) trainiert werden. Dabei erkennen sie Muster in riesigen Datenmengen, ohne explizite Anweisungen zu erhalten. Doch genau hier liegt eine Gefahr: Nutzen diese Modelle versehentlich falsche Hinweise aus den Daten, können sich diese Fehler unbemerkt auf spezialisierte Anwendungen übertragen – ein Phänomen, das als Clever-Hans-Effekt bekannt ist.
Clever Hans: Wenn KI-Modelle auf die falschen Signale hören
Der Clever-Hans-Effekt beschreibt Situationen, in denen eine KI zwar richtige Vorhersagen trifft, sich dabei aber auf irrelevante oder unerwartete Muster stützt. Benannt ist das Phänomen nach dem berühmten Pferd „Clever Hans“, das scheinbar rechnen konnte – tatsächlich aber unbewusste Signale seines Besitzers nutzte. Ein klassisches Beispiel aus der KI-Welt wäre ein Bildklassifikationsmodell, das Pferde erkennen soll, aber stattdessen unbewusst auf einen Schriftzug „Pferd“ am Bildrand achtet.
Forscher der TU Berlin weisen Clever-Hans-Effekt in KI-Modellen nach
Ein Team des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin hat nun nachgewiesen, dass gängige KI-Modelle für Bilderkennung von solchen Clever-Hans-Effekten betroffen sind – und das, ohne dass bisherige Testverfahren diese Fehler erkannt hätten. Ihre Ergebnisse wurden in der renommierten Fachzeitschrift Nature Machine Intelligenceveröffentlicht.
Besonders kritisch wird dieses Problem, wenn Foundation-Modelle wie CLIP als Grundlage für spezialisierte Anwendungen genutzt werden. Ein konkretes Beispiel aus der Forschung zeigt: Das medizinische KI-Modell PubMedCLIP, das Röntgenbilder analysiert, klassifiziert zwei Lungenaufnahmen als ähnlich – allerdings nicht aufgrund der eigentlichen Bildinhalte, sondern wegen gleicher Text-Anmerkungen auf den Bildern. Das bedeutet, dass das Modell falsche Rückschlüsse zieht und potenziell fehlerhafte Diagnosen liefern könnte. Diese problematische Strategie wurde unbemerkt aus dem ursprünglichen CLIP-Modell übernommen.
Warum dieser Fehler so gefährlich ist
Foundation-Modelle wie CLIP werden in vielen Bereichen eingesetzt, von der industriellen Qualitätssicherung bis zur medizinischen Diagnostik. Die fehlerhaften Vorhersagestrategien, die durch Clever-Hans-Effekte entstehen, können sich so unbemerkt auf zahlreiche spezialisierte KI-Anwendungen übertragen – ein Domino-Effekt mit möglicherweise gravierenden Folgen.
„Das unüberwachte Lernen ist ein zentrales Merkmal vieler großer KI-Modelle. Dass wir verbreitet Clever-Hans-Effekte in diesen Modellen nachweisen konnten, ist ein Grund zur Besorgnis“, warnt BIFOLD Co-Direktor Klaus-Robert Müller.
Lösung: Erklärbare KI macht Fehler sichtbar und korrigierbar
Um dieses Problem zu erkennen und zu beheben, haben die Forscher Methoden der Erklärbaren Künstlichen Intelligenz (Explainable AI, XAI) eingesetzt. Mit der Technik Layer-wise Relevance Propagation (LRP) konnten sie herausfinden, welche Bildbereiche ein Modell für seine Entscheidungen heranzieht. Besonders effektiv erwies sich dabei die Methode BiLRP, die nicht nur zeigt, welche Pixel wichtig sind, sondern auch, wie sie sich gegenseitig beeinflussen.
Dank dieser Technik fanden die Wissenschaftler heraus, dass CLIP übermäßig auf Text und Gesichter achtet – selbst in Anwendungen, bei denen diese Faktoren eigentlich keine Rolle spielen sollten. Noch wichtiger: Die Erklärbare KI kann nicht nur Fehler sichtbar machen, sondern auch dabei helfen, sie aus den Modellen zu entfernen.
Mehr Kontrolle über KI-Modelle nötig
Die Studie zeigt, dass das unüberwachte Lernparadigma in KI-Modellen überdacht werden muss. Foundation-Modelle bilden die Basis für zahlreiche spezialisierte KI-Anwendungen – doch wenn sie bereits mit Clever-Hans-Effekten „infiziert“ sind, übertragen sich diese Fehler weiter.
„Unsere jüngsten Entwicklungen in der Erklärbaren KI zeigen erstmals einen effektiven Weg, um diesen Domino-Effekt zu erkennen und zu beheben“, erklärt BIFOLD-Wissenschaftler Prof. Dr. Grégoire Montavon. Damit könnte ein entscheidender Schritt in Richtung transparenterer und zuverlässigerer Künstlicher Intelligenz gemacht werden.