Von künstlichen Intelligenzen erzeugte Stimmen sind echten zum Verwechseln ähnlich
Täuschend echt: Wir Menschen können Sprach-Deepfakes selbst mit einiger Übung nur schwer von echten Stimmen unterscheiden, wie eine Studie belegt. In ihr erreichten Testpersonen bei menschlichen und KI-generierten Sprachaufnahmen in Englisch und Mandarin eine Trefferquote von nur 73 Prozent. Die Forschenden vermuten, dass die Erkennungsrate in Alltags-Situationen noch deutlich geringer ist. Um betrügerische Deepfakes zu erkennen, seien daher trainierte Algorithmen vielversprechender als menschliche Analysten.
Deepfakes ahmen mit Hilfe maschinellen Lernens das Aussehen oder die Stimme einer echten Person nach. Dabei besteht ein hohes Missbrauchspotenzial: Bekannt wurden beispielsweise Fälle, in denen Gesichter von Hollywood-Stars in Pornos geschnitten wurden, Politikern wie dem ukrainischen Präsidenten Wolodymyr Selenskyj gefälschte Aussagen in den Mund gelegt wurden und Bankmanager mit Hilfe nachgeahmter Stimmen ihrer Vorgesetzten dazu veranlasst wurden, große Geldsummen zu überweisen.
Da die Algorithmen immer fortschrittlicher werden, ist es inzwischen auch für Laien möglich, mit wenig Aufwand überzeugende Fälschungen zu erstellen. Zugleich arbeiten zahlreiche Forschungsteams daran, Algorithmen darauf zu trainieren, Deepfakes von Bildern, Videos und Tonaufnahmen zu erkennen. Auf welche Feinheiten die Algorithmen achten, ist aber meist unklar. Zudem wurde bislang wenig erforscht, inwieweit Menschen in der Lage sind, Deepfakes zu identifizieren.
Mensch oderMaschine?
Das hat nun ein Team um Kimberly Mai vom University College London untersucht. Dazu präsentierten die Forschenden 529 Testpersonen eine Auswahl von echten und künstlich generierten Sprachaufnahmen und baten sie, jeweils einzuschätzen, welche der Aufnahmen von einem echten Menschen und welche von einer künstlichen Intelligenz stammt. Einige Teilnehmer erhielten vorab zum Training fünf KI-generierte Sprachaufnahmen.
Die künstlich generierten Sprachaufnahmen hatte das Team zuvor anhand von Trainingsdaten aus öffentlich zugänglichen Datensätzen erzeugt. Um herauszufinden, ob die Erkennung abhängig von der Sprache einfacher oder schwieriger ist, führten sie die Experimente sowohl mit Sprachbeispielen auf Englisch als auch auf Mandarin durch. Dabei achteten sie darauf, dass die Probanden die jeweilige Sprache fließend beherrschten, um auch sprachliche Feinheiten heraushören zu können.
Skeptisch im Studiensetting
Das Ergebnis: „Die Hörer erkannten die Deepfakes nur in 73 Prozent der Fälle“, berichten Mai und ihr Team. „Dabei gab es keine signifikanten Unterschiede zwischen den beiden Sprachen.“ Testpersonen mit vorherigem Training schnitten beim Erkennen nur geringfügig besser ab. Wie viel Zeit sie sich für jedes Beispiel nahmen und wie oft sie die Sprachaufnahme anhörten, spielte für die Erkennungsgenauigkeit keine Rolle, ebenso wenig wie die Länge der jeweiligen Aufnahme.
Auffällig war, dass die Probanden aufgrund der Studiensituation offenbar besonders misstrauisch gegenüber den Sprachbeispielen waren. Von den echten Beispielen hielten sie jedes dritte fälschlicherweise für einen Deepfake. Die Forschenden gehen daher davon aus, dass die Erkennungsrate in Alltagssituationen, in denen die Personen nicht mit Deepfakes rechnen, noch wesentlich geringer ist.
Atmung und Sprachmelodie
„Unsere Ergebnisse bestätigen, dass Menschen nicht in der Lage sind, gefälschte Sprache zuverlässig zu erkennen, unabhängig davon, ob sie ein Training zur Erkennung künstlicher Inhalte erhalten haben oder nicht“, sagt Mai. „Es ist auch erwähnenswert, dass die Beispiele, die wir in dieser Studie verwendet haben, mit relativ alten Algorithmen erstellt wurden.“ Deepfakes, die mit moderneren Algorithmen erzeugt würden, könnten womöglich noch schwerer zu erkennen sein.
Auf die Frage, woran die Probanden jeweils festmachten, ob es sich um eine echte Aufnahme oder einen Deepfake handelt, verwiesen viele der englischsprachigen Teilnehmer darauf, dass die Atmung in den gefälschten Beispielen unnatürlich wirkte. Mandarin-Sprecher machten ihre Entscheidung dagegen häufiger an der Sprachmelodie, dem Abstand zwischen den Wörtern und dem Redefluss fest.
Gemeinsam besser
Obwohl jede individuelle Testperson schlechter abschnitt als Algorithmen, die das Forschungsteam auf die Erkennung der Deepfakes trainiert hatte, erreichten alle Probanden gemeinsam eine ähnliche Genauigkeit. Wenn die Forschenden für jedes einzelne Beispiel alle Antworten der Testpersonen zusammennahmen, lag die Trefferquote zur Unterscheidung von echt und gefälscht bei 95,51 Prozent.
„Angesichts des Ausmaßes der menschlichen Einschränkungen und der zunehmenden Verfügbarkeit von Computerressourcen für den Einsatz von Detektoren sollte sich die Forschung auf die Verbesserung dieser Detektoren konzentrieren“, schreiben Mai und ihr Team. „In der Zwischenzeit kann das Crowd-Sourcing eine sinnvolle Lösung sein.“ (PLoS ONE, 2023, doi: 10.1371/journal.pone.0285333)
Quelle: University College London