KI-Systeme GPT und Co verlieren im Cartoon-Caption-Test (noch) gegen uns Menschen
Bedingt humorfähig: KI-Systeme wie ChatGPT können zwar Witze erzählen, aber wie gut verstehen sie unseren menschlichen Humor? Das haben Forschende am Beispiel von Cartoons mit dazugehörenden „Onelinern“ getestet. Das Ergebnis: Die KI-Systeme konnten zwar Text und Bild teilweise korrekt zuordnen und auch erklären, worin die Komik liegt. Insgesamt schnitt aber selbst GPT-4 schlechter ab als menschliche Testpersonen. Im Erkennen von implizitem Humor hinken die künstlichen Intelligenzen uns demnach noch hinterher.
Ob Situationskomik, Wortwitz oder satirische Cartoons: Humor zu verstehen, ist oft gar nicht so simpel. In vielen Fällen müssen wir dafür um die Ecke denken, sprachliche Eigenheiten wie die doppelte Bedeutung eines Worts kennen oder den gesellschaftlichen Kontext verstehen. Das wirft die Frage auf, wie gut künstliche Intelligenzen dafür gerüstet sind. KI-Systeme wie ChatGPT können zwar überzeugende Texte, Bilder und auch Witze produzieren. Nach gängiger Annahme fehlt der generativen KI aber ein echtes Verständnis der Inhalte.
Cartoons als Testfall
Wie weit das Humor-Verständnis künstlicher Intelligenzen reicht, haben Jack Hessel vom The Allen Institute for AI und seine Kollegen nun untersucht. Für ihren Test ließen sie verschiedene KI-Systeme den sogenannten „Cartoon Caption Contest“ des US-Magazin „The New Yorker“ absolvieren. Ausgangspunkt dafür sind Cartoons, die ihren Witz aus dem Zusammenhang des Dargestellten mit einem begleitenden Zitat oder Satz beziehen.
Ein Beispiel für einen der Cartoons: Im Bild ist ein typischer Konferenzraum zu sehen, die am Tisch Sitzenden haben verschiedene Tierköpfe. Der Begleittext ist der Ausspruch eines der Sitzungsteilnehmer: „Gegenüber der Öffentlichkeit sagen wir immer noch, es gebe keine Nebenwirkungen.“ Die Pointe ist für uns Menschen relativ schnell ersichtlich: Offenbar handelt es sich um ein Meeting bei einer Pharmafirma und der Cartoon karikiert auf übersteigerte Weise die gängigen Annahmen zu Profitgier und Vertuschungen dieser Branche.
Welcher Satz gehört zum Bild?
Die Aufgabe bestand darin, aus fünf vorgeschlagenen Begleitsätzen den am besten zum Bild passenden auszuwählen und anschließend in einem kurzen Text zu erklären, wo die Pointe liegt. „Das Interessante an den New-Yorker-Cartoons ist, dass die Verbindung zwischen den Bildern und ihren Begleitsätzen indirekt und spielerisch ist“, erklärt Hessel. „Sie beinhaltet viele Anspielungen auf menschliche Erfahrungen, Normen und Kultur. Diese Bezüge zu verstehen, erfordert daher schon komplexere Denkfähigkeiten.“
Als Input für den Test dienten 705 verschiedene Cartoons mit jeweils fünf Begleittexten zur Auswahl. Den Test absolvierten drei KI-Systeme, die Bilder erkennen und interpretieren können (CLIP, OFA, T5-Large), und die drei Großen Sprachmodelle GPT-3, GPT-3.5 und GPT-4. Letztere erhielten statt der Bilder eine neutrale Beschreibung des in den Cartoons Dargestellten.
KI-Systeme hinken noch hinterher
Das Ergebnis: Beim Zuordnen der Begleitsätze erreichten die vom Bild ausgehenden KI-Systeme eine Trefferquote von 62 Prozent. Menschliche Testpersonen schafften es dagegen in 94 Prozent der Fälle, den richtigen Begleittest zu erkennen, wie das Team berichtet. Bei den Großen Sprachmodellen zeigte sich ein deutlicher Trend mit wachsender Modellgöße: Die früheste Version GPT-3 ordnete nur rund 57 Prozent der Textzeilen korrekt zu, GPT-4 erreichte dagegen knapp 85 Prozent.
„Damit enthüllen unsere Ergebnisse eine Lücke zwischen künstlicher Intelligenz und menschlichem Humorverständnis“, konstatieren Hessel und seine Kollegen. Dies zeigte sich auch in den Erklärungen zur Pointe: Sie wurden von Begutachtern in Bezug auf Korrektheit und Qualität der Erklärung bewertet, ohne dass diese wussten, ob die Texte von Mensch oder Maschine stammten. Das Ergebnis hier: „Die menschlichen Erklärungen wurden in mehr als zwei Drittel der Fälle bevorzugt“, berichten die Forschenden.
Ergebnisse dennoch beachtlich
Damit scheint klar, das künstliche Intelligenzen in Sachen Humor noch eines lernen müssen. Dennoch zeigen sie schon jetzt durchaus beachtliche Fähigkeiten, wie auch Hessel und seine Kollegen betonen. „Auch die begrenzten Kapazitäten der aktuellen KI-Systeme sind schon substanziell und könnten beispielsweise schon ausreichen, um solche Modelle als kreative Helfer für Humoristen oder Cartoonisten einzusetzen, beispielsweise beim Ideen-Brainstorming.“ (61st annual meeting of the Association for Computational Linguistics, 2023; Abstract)
Quelle: Cornell University