Künstliche Intelligenz lässt bei Prüfung von Richtlinienverstößen keine Milde walten
Fehlendes Augenmaß: Künstliche Intelligenz bewertet Regelverstöße strenger als wir Menschen, wie eine Studie enthüllt. Der Grund dafür: KI-Systeme werden mit von Menschen kategorisierten Daten trainiert. Doch Menschen sind bei solchen beschreibenden Einstufungen strenger, als wenn sie normative Urteile treffen sollen. Das verzerrt die Trainingsdaten – und hat Folgen für die KI-gestützte Überprüfung von Social-Media-Posts, bei Kreditprüfungen oder Rechtsfragen, wie Forschende in „Science Advances“ berichten.
Lernfähige KI-Systeme wie ChatGPT sind in der Lage, menschliche Kommunikation täuschend echt nachzuahmen, Computercodes zu programmieren und sich in der Forschung nützlich zu machen. In den sozialen Medien werden die lernfähigen Algorithmen bereits eingesetzt, um Beiträge zu identifizieren und zu blockieren, die gegen ethische Richtlinien oder Gesetze verstoßen. Sogar bei Gericht sind KI-Systeme teilweise schon in Gebrauch – beispielsweise um die Rückfall-Wahrscheinlichkeit von Angeklagten einzuschätzen.
Lernende Maschinen als Richter?
„Wenn solche Systeme so konzipiert sind, dass sie menschliche Regeln und Normen genau umsetzen, erhofft man sich, dass sie die Urteilsfindung beschleunigen, kostengünstiger gestalten und fairer machen, weil sie irrelevante Fakten ausblenden und neutralere Entscheidungen treffen können“, erklären Aparna Balagopalan vom Massachusetts Institute of Technology in Cambridge und ihre Kollegen.
Allerdings birgt dies große Risiken, denn Fehlentscheidungen der KI-Systeme können im Extremfall Existenzen zerstören und Menschen großen Schaden zufügen. Dies gilt vor allem für die künstlichen Intelligenzen, die über die Kreditwürdigkeit von Personen entscheiden, bei Personalentscheidungen zu Rate gezogen werden und teilweise sogar bereits in der Strafjustiz agieren. „Regierungen auf der ganzen Welt beginnen, den Einsatz automatisierter Entscheidungsfindung sowohl im öffentlichen als auch im privaten Sektor zu regeln“, schreiben Balagopalan und ihr Team.
Beschreibung oder Regelverstoß?
Aber inwieweit entsprechen die maschinellen Entscheidungen denen, die Menschen treffen würden? Das haben Balagopalan und ihr Team nun untersucht. Dafür ließen sie zunächst Freiwillige in einem Online-Experiment jeweils 2.000 Bilder und Texte nach formalen Merkmalen einstufen. Beispielsweise sollten die Testpersonen angeben, ob ein Outfit viel freie Haut zeigt, ein Hund aggressiv wirkt, eine Mahlzeit einen hohen Zuckergehalt hat oder ein Text obszöne Sprache enthält.
Eine andere Gruppe von Testpersonen baten die Forschenden stattdessen, anhand der gleichen Bilder und Texte zu beurteilen, inwieweit Regeln verletzt werden – etwa ein Dresscode, der viel freie Haut verbietet, einen Ernährungsplan, der zu zuckerhaltiges Essen ausschließt, eine Hausordnung, die keine aggressiven Hunde zulässt, oder Community-Richtlinien, die obszöne Sprache untersagen.
Bei Urteilen milder als bei Beschreibungen
Das Ergebnis: Während die Testpersonen bei einer rein beschreibenden Fragestellung zahlreichen Lebensmitteln einen hohen Zuckergehalt, den Hunden Aggressivität und den gezeigten Outfits große Freizügigkeit attestierten, zeigten sich die Personen aus der normativen Gruppe zurückhaltender: Sie kamen bei deutlich weniger Objekten zu der Einschätzung, dass sie die entsprechenden Richtlinien verletzten.
„Menschen kennzeichnen Objekte unterschiedlich, je nachdem, ob ihnen eine sachliche oder eine normative Frage gestellt wird“, erklärt das Forschungsteam. „Wir haben zwar nicht explizit getestet, warum das so ist, aber eine Hypothese ist, dass die Menschen vielleicht anders über Regelverstöße denken als über beschreibende Daten. Im Allgemeinen sind normative Entscheidungen nachsichtiger“, so Balagopalan. Offenbar entscheiden wir Menschen bei der Beurteilung von Regelverstößen eher zugunsten des „Angeklagten“.
Datengrundlage als Problem
Doch mit Hinblick auf künstliche Intelligenzen ergibt sich daraus ein Problem: Diese werden üblicherweise mit Daten trainiert, die von Menschen in rein deskriptivem Kontext kategorisiert wurden. „Damit haben die Daten, mit denen sie trainiert werden, einen entscheidenden Fehler“, sagt Balagopalans Kollegin Marzyeh Ghassemi. „Menschen würden die Merkmale von Bildern und Texten anders einstufen, wenn sie wüssten, dass diese Merkmale für ein Urteil verwendet werden. Das hat enorme Auswirkungen auf maschinelle Lernsysteme in menschlichen Prozessen.“
Und tatsächlich: Trainierten Balagopalan und ihr Team die künstliche Intelligenzen alBERT und BERT mit den deskriptiven Daten, meldeten diese wesentlich häufiger einen Regelverstoß als die menschlichen Testpersonen. Kamen dagegen im Training die Daten zum Einsatz, bei dem die menschlichen Kategorisierer wussten, dass es um normative Urteile geht, traf auch die KI „menschlichere“ Entscheidungen.
Transparenz über die Trainingsdaten
„Deshalb ist es wichtig, den Trainingskontext mit dem Einsatzkontext abzugleichen, wenn man Modelle darauf trainiert, Regelverletzungen zu erkennen“, sagt Balagopalan. Bisher legen Unternehmen, die KIs entwickeln, allerdings meist nicht offen, mit welchen Daten ihr System trainiert wurde – dies gilt auch für ChatGPT oder die Google-KI. Diese Information sei aber ausgesprochen relevant, um abschätzen zu können, für welche Einsatzzwecke die jeweilige KI geeignet ist.
„Wir müssen uns darüber im Klaren sein, dass wir, wenn wir das menschliche Urteilsvermögen reproduzieren wollen, nur Daten verwenden dürfen, die in diesem Umfeld erhoben wurden“, sagt Ghassemi. „Andernfalls werden wir mit Systemen enden, die extrem harte Bewertungen vornehmen, viel härter als Menschen es tun würden. Der Mensch würde Nuancen erkennen oder eine andere Unterscheidung treffen, während diese Modelle dies nicht tun.“
Bei Systemen, die auf deskriptiven Daten basieren, könne es womöglich helfen, mit einer kleinen Menge normativer Daten eine Feinabstimmung vorzunehmen. Mit dieser Möglichkeit wollen sich Balagopalan und ihr Team in zukünftigen Forschungsarbeiten beschäftigen. (Science Advances, 2023, doi: 10.1126/sciadv.abq0701)
Quelle: Massachusetts Institute of Technology