Home » News » „Clever-Hans-Effekt“ führt zu unerkanntem Dominoeffekt

KI-Forschung:: „Clever-Hans-Effekt“ führt zu unerkanntem Dominoeffekt

Künstliche Intelligenz revolutioniert Wissenschaft, Industrie und medizinische Diagnostik – oft basierend auf Modellen wie GPT, Llama oder CLIP. Doch Forscher der TU Berlin haben nun ein alarmierendes Problem nachgewiesen: Fehlerhafte Vorhersagestrategien können sich unbemerkt über gängige maschinelle Lernmodelle verbreiten – mit potenziell weitreichenden Folgen.

3 Min. Lesezeit
Nahaufnahme eines Smartphone-Bildschirms mit zwei App-Symbolen: ChatGPT mit einem schwarzen Wirbel-Logo und DeepSeek mit einem blauen Wal-Logo. Die angezeigte Uhrzeit ist 13:14 Uhr. Das Telefon liegt auf einer Laptop-Tastatur.
yalcinsonat - stock.adobe.com

Der breite Einsatz generativer Künstlicher Intelligenz (KI) bringt eine entscheidende Frage mit sich: Wie transparent und zuverlässig treffen diese Modelle ihre Entscheidungen? Viele KI-Modelle wie GPT oder CLIP basieren auf sogenannten Foundation-Modellen, die mit unüberwachtem Lernen (unsupervised Learning) trainiert werden. Dabei erkennen sie Muster in riesigen Datenmengen, ohne explizite Anweisungen zu erhalten. Doch genau hier liegt eine Gefahr: Nutzen diese Modelle versehentlich falsche Hinweise aus den Daten, können sich diese Fehler unbemerkt auf spezialisierte Anwendungen übertragen – ein Phänomen, das als Clever-Hans-Effekt bekannt ist.

Clever Hans: Wenn KI-Modelle auf die falschen Signale hören

Der Clever-Hans-Effekt beschreibt Situationen, in denen eine KI zwar richtige Vorhersagen trifft, sich dabei aber auf irrelevante oder unerwartete Muster stützt. Benannt ist das Phänomen nach dem berühmten Pferd „Clever Hans“, das scheinbar rechnen konnte – tatsächlich aber unbewusste Signale seines Besitzers nutzte. Ein klassisches Beispiel aus der KI-Welt wäre ein Bildklassifikationsmodell, das Pferde erkennen soll, aber stattdessen unbewusst auf einen Schriftzug „Pferd“ am Bildrand achtet.

Forscher der TU Berlin weisen Clever-Hans-Effekt in KI-Modellen nach

Ein Team des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin hat nun nachgewiesen, dass gängige KI-Modelle für Bilderkennung von solchen Clever-Hans-Effekten betroffen sind – und das, ohne dass bisherige Testverfahren diese Fehler erkannt hätten. Ihre Ergebnisse wurden in der renommierten Fachzeitschrift Nature Machine Intelligenceveröffentlicht.

Besonders kritisch wird dieses Problem, wenn Foundation-Modelle wie CLIP als Grundlage für spezialisierte Anwendungen genutzt werden. Ein konkretes Beispiel aus der Forschung zeigt: Das medizinische KI-Modell PubMedCLIP, das Röntgenbilder analysiert, klassifiziert zwei Lungenaufnahmen als ähnlich – allerdings nicht aufgrund der eigentlichen Bildinhalte, sondern wegen gleicher Text-Anmerkungen auf den Bildern. Das bedeutet, dass das Modell falsche Rückschlüsse zieht und potenziell fehlerhafte Diagnosen liefern könnte. Diese problematische Strategie wurde unbemerkt aus dem ursprünglichen CLIP-Modell übernommen.

Warum dieser Fehler so gefährlich ist

Foundation-Modelle wie CLIP werden in vielen Bereichen eingesetzt, von der industriellen Qualitätssicherung bis zur medizinischen Diagnostik. Die fehlerhaften Vorhersagestrategien, die durch Clever-Hans-Effekte entstehen, können sich so unbemerkt auf zahlreiche spezialisierte KI-Anwendungen übertragen – ein Domino-Effekt mit möglicherweise gravierenden Folgen.

„Das unüberwachte Lernen ist ein zentrales Merkmal vieler großer KI-Modelle. Dass wir verbreitet Clever-Hans-Effekte in diesen Modellen nachweisen konnten, ist ein Grund zur Besorgnis“, warnt BIFOLD Co-Direktor Klaus-Robert Müller.

Lösung: Erklärbare KI macht Fehler sichtbar und korrigierbar

Um dieses Problem zu erkennen und zu beheben, haben die Forscher Methoden der Erklärbaren Künstlichen Intelligenz (Explainable AI, XAI) eingesetzt. Mit der Technik Layer-wise Relevance Propagation (LRP) konnten sie herausfinden, welche Bildbereiche ein Modell für seine Entscheidungen heranzieht. Besonders effektiv erwies sich dabei die Methode BiLRP, die nicht nur zeigt, welche Pixel wichtig sind, sondern auch, wie sie sich gegenseitig beeinflussen.

Dank dieser Technik fanden die Wissenschaftler heraus, dass CLIP übermäßig auf Text und Gesichter achtet – selbst in Anwendungen, bei denen diese Faktoren eigentlich keine Rolle spielen sollten. Noch wichtiger: Die Erklärbare KI kann nicht nur Fehler sichtbar machen, sondern auch dabei helfen, sie aus den Modellen zu entfernen.

Mehr Kontrolle über KI-Modelle nötig

Die Studie zeigt, dass das unüberwachte Lernparadigma in KI-Modellen überdacht werden muss. Foundation-Modelle bilden die Basis für zahlreiche spezialisierte KI-Anwendungen – doch wenn sie bereits mit Clever-Hans-Effekten „infiziert“ sind, übertragen sich diese Fehler weiter.

„Unsere jüngsten Entwicklungen in der Erklärbaren KI zeigen erstmals einen effektiven Weg, um diesen Domino-Effekt zu erkennen und zu beheben“, erklärt BIFOLD-Wissenschaftler Prof. Dr. Grégoire Montavon. Damit könnte ein entscheidender Schritt in Richtung transparenterer und zuverlässigerer Künstlicher Intelligenz gemacht werden.

Andere interessante News

Ein Handy liegt auf einem Laptop und hat das Logo von WhatsApp auf dem Bildschirm

Datenschutzbeauftragte kritisiert WhatsApp-Nutzung im Polizeidienst

Die Landesdatenschutzbeauftragte Nordrhein-Westfalens, Bettina Gayk, warnt vor dem dienstlichen Einsatz von WhatsApp in der Polizei. Hintergrund sind Beschwerden über die Nutzung d...

Zwei Bälle und ein blauer Hula-Hoop-Reifen liegen auf einem Hallenboden; im Vordergrund ein Volleyball mit grün-weiß-rotem Muster, daneben ein roter Gymnastikstab, im Hintergrund ein Basketball.

Safe Sport: Kampf gegen Übergriffe beim Sport

Der erste Jahresbericht der 2023 gegründeten Ansprechstelle Safe Sport verzeichnet zwischen Juli 2023 und Dezember 2024 223 Beratungsanfragen zu Gewalt im Sport. Die Zahl der Fälle...

Einbrecher verübt Wohnungseinbruch am Fenster

Wohnungseinbrüche kosteten Versicherungen 2024 350 Millionen Euro

Alle sechs Minuten dringen Einbrecher in ein Zuhause in Deutschland ein – Tag und Nacht, in Städten wie auf dem Land. Im Jahr 2024 zählten die Versicherer rund 90.000 Fälle, ähnlic...