Psychologische Effekte machen KI-generierte Fehlinformationen hartnäckig und schwer zu korrigieren
KI als Influencer: Gleich mehrere psychologische Mechanismen sorgen dafür, dass wir Fehlinformationen und Vorurteile von künstlichen Intelligenzen besonders leicht übernehmen – und hartnäckig an ihnen festhalten, wie Forscherinnen in „Science“ berichten. So ist unsere menschliche Psyche darauf geeicht, kompetent klingende Aussagen zu glauben, vor allem, wenn sie sich häufen und von vermeintlich kenntnisreichen Gegenübern stammen. Einmal etabliert, lassen sich dann solche in unserer Psyche verankerten Ansichten kaum noch korrigieren.
Dass künstliche Intelligenzen wie ChatGPT, BARD und Co über ihre Trainingsdaten auch Vorurteile und Falschinformationen lernen und dann weiterverbreiten, ist nicht neu. Unternehmen wie OpenAI, Microsoft oder Google versuchen dies zu vermeiden, indem sie ihre KI-Systeme „nachsitzen“ lassen oder nachträgliche Filter einbauen. Auch wenn dies bisher nur bedingt funktioniert – solche „Halluzinationen“ und Verzerrungen tun dem Erfolg der generativen KI-Systeme keinen Abbruch.
Drei psychologische Schwachstellen
Doch es gibt einen Aspekt, der bisher unterschätzt wurde: Die KI-generierten Inhalte – und die darin enthaltenen Verzerrungen – setzen sich besonders nachhaltig und effektiv fest. Dafür sorgen psychologische Mechanismen, die tief in uns Menschen verankert sind. „Drei Grundprinzipien der Humanpsychologie können deutlich machen, wo die Gefahren liegen“, erklären die Psychologin Celeste Kidd von der University of California in Berkeley und die Computerwissenschaftlerin Abeba Birhane vom Trinity College Dublin.
Die erste Falle: Wir Menschen formen stärkere, haltbarere Ansichten, wenn wir die zugrundeliegende Information von Akteuren erhalten, die wir als kenntnisreich und überzeugt einschätzen. Je bestimmter und scheinbar kompetenter jemand auftritt, desto eher glauben wir dem von ihm Gesagten. Dabei spielt auch die Art des Sprechens eine wichtige Rolle: „Menschen kommunizieren ihre Ungewissheit meist durch Phrasen wie ‚ich glaube‘, durch eine verzögerte Antwort, durch Pausen im Sprachfluss oder auch Korrekturen“, erklären Kidd und Birhane.
Die Kompetenz-Falle
Doch generative KI-Systeme zeigen solche sprachlichen Indizien für Ungewissheit nicht. „Sie geben überzeugende, flüssige Antworten ohne Hinweise auf Ungewissheiten“, so die Forscherinnen. Dadurch erzeugen die künstlichen Intelligenzen bei uns den unbewussten Eindruck, sie seien sich ihrer sicher und entsprechend kompetent. Als Folge neigen wir unbewusst dazu, die von der KI erzeugten Inhalte für bare Münze zu nehmen und als verlässlich anzusehen – die in den Antworten oder Bildern versteckten Verzerrungen, Vorurteile oder Fehlinformationen inklusive.
Kidd und Birhane illustrieren die Folgen an einem Beispiel aus der US-Rechtsprechung: Dort werden teilweise Algorithmen eingesetzt, um die Rückfallwahrscheinlichkeit von Straftätern einzuschätzen. Diese neigen jedoch aufgrund ihrer Trainingsdaten dazu, Schwarze per se als weniger rehabilitierbar anzusehen. Wenn nun Richter diese KI-Systeme als kompetent ansehen, kann das dazu führen, dass sie diese Einschätzungen mit der Zeit selbst verinnerlichen.
Hinzu kommt: Wir Menschen neigen dazu, auch KI-Systemen absichtsvolles und einsichtiges Verhalten zuzuschreiben. „Diese Neigung, generative Modelle als kenntnisreiche, absichtsvolle Akteure zu sehen, verstärkt die Bereitschaft, ihre Informationen anzunehmen“, erklären Kidd und Birhane.
Die schiere Menge machts
Der zweite Faktor: „Die Zahl der Kontakte mit falscher oder verzerrter Information bestimmt, wie tief sich Ansichten bei uns Menschen einprägen“, erklären die Wissenschaftlerinnen. Je häufiger wir einer Information oder Ansicht begegnen, desto eher machen wir sie uns zu eigen. Genau dies wird von der schieren Menge und zunehmenden Verbreitung der von künstlicher Intelligenz erzeugten Inhalte gefördert. Umso mehr, wenn generative KI künftig noch weiter in unsere Alltagstechnologien integriert wird – vom Smartphone bis zur Suchmaschine.
Gleichzeitig besteht die Gefahr einer sich selbst verstärkenden Rückkopplungsschleife: Weil die KI-Systeme immer mehr Inhalte generieren, finden ihre Texte und Bilder auch zunehmend Eingang in die Trainingsdaten folgender KI-Modelle. Diese reproduzieren die Vorurteile und Fehlinformationen daraufhin. „Dies verstärkt die Wirkung systemischer Verzerrungen und setzt sie in die Zukunft hinein fort“, warnt das Team.
Im Nachhinein schwer zu korrigieren
Das dritte und größte Problem jedoch: Einmal etablierte Ansichten sind nur schwer wieder aus menschlichen Köpfen zu tilgen. Eine Information oder Ansicht prägt sich dabei umso tiefer und hartnäckiger ein, je unsicherer und unwissender die Betroffenen zuvor waren. „Dann sind Menschen am offensten dafür, etwas Neues zu lernen“, erklären Kidd und Birhane. Dies ist auch oft der Fall, wenn wir eine KI etwas fragen.
Haben wir dann jedoch eine überzeugend klingende Antwort erhalten, sinkt unsere Unsicherheit und damit auch unsere Offenheit für alternative, korrigierende Informationen. „Das kann bedeuten, dass die von einem Großen Sprachmodell erzeugte und von einer unsicheren Person aufgenommene Information hinterher nur schwer wieder aufzuheben ist – selbst, wenn sie falsch war“, erklären die Forscherinnen.
Sie plädieren daher dafür, mehr Aufklärung zu leisten und diese Probleme auch bei der Erforschung und Regulierung dieser neuen Technologien zu berücksichtigen. (Science, 2023; doi: 10.1126/science.adi0248)
Quelle: Science, Trinity College Dublin