KI-generierte Fachartikel entlarvt

Typische Phrasen von ChatGPT tauchen selbst in hochrangigen Journalen auf

Heimlicher Helfer: Bei wissenschaftlichen Fachartikeln schreibt immer häufiger ein nicht deklarierter Autor mit: die künstliche Intelligenz. Das verraten typische KI-Phrasen selbst in einigen Top-Journalen. Mitten im Text stehen dann Halbsätze wie: „Als KI Sprachmodell…“ oder „Meinem letzten Wissens-Update zufolge….“ Das Brisante daran: Der Einsatz von ChatGPT und Co ohne entsprechende Angabe ist in fast allen Fachjournalen verboten. Hinzu kommt: Wenn nicht einmal diese verräterischen Phrasen auffallen, wie sieht es mit Fehlern und Halluzinationen der KI aus?

Dank rasanter Fortschritte der künstlichen Intelligenz sind GPT, DeepSeek und Co für viele Menschen schon Teil ihres Alltags – auch im Arbeitsleben und in der Wissenschaft. Forschende nutzen die KI-Modelle beispielsweise, um Daten zu analysieren, für die Literaturrecherche oder auch als Übersetzer beim Verfassen ihrer Fachartikel. Bereits Anfang 2023 zeigte ein Test zudem, dass selbst erfahrene Gutachter die von ChatGPT verfassten Kurzfassungen (abstracts) von menschengemachten nicht unterscheiden konnten.

Als Reaktion darauf haben nahezu alle namhaften Fachverlage, darunter Elsevier, Science, Springer und Wiley strikte Regeln aufgestellt. Demnach dürfen KI-Tools beim Erstellen der Fachartikel nur für die Übersetzung oder sprachliche Glättung verwendet werden – und dies muss explizit deklariert werden. Den Text komplett oder in Teilen von Sprachmodellen schreiben zu lassen, ist dagegen verboten.

Verräterische Phrasen

Doch halten sich die Wissenschaftler daran? Einige bereits entlarvte „schwarze Schafe“ wecken daran Zweifel. „Es wird zunehmend beobachtet, dass von ChatGPT generierter Inhalt undeklariert und unentdeckt in wissenschaftlichen Journalen erscheint“, sagt Artur Strzelecki von der Wirtschaftsuniversität Kattowitz. „Das deutet auf ein wachsendes Problem mit der Peer-Review und dem Editions- und Begutachtungsprozess in wissenschaftlichen Publikationen hin.“

Wie groß das Problem wirklich ist, hat Strzelecki nun genauer untersucht. Dafür nutzte er den Umstand, dass KI-Modelle wie ChatGPT in ihren Antworten typische Phrasen verwenden. Beispiele sind „Als KI-Sprachmodell…“, „Meinem letzten Wissens-Update zufolge….“, „Gerne, hier ist…“ oder auch „Ich habe keinen Zugang zu diesen spezifischen“. Ebenso entlarvend ist die Formulierung: „regenerate response“, durch die Nutzer die KI bitten können, ihre Antwort noch einmal umzuformulieren oder zu ändern.

Wer verbotenerweise eine Publikation durch künstliche Intelligenz erstellt, wird solche verräterischen Phrasen daher tunlichst aus dem Manuskript löschen – sollte man meinen. Um das zu testen, hat Strzelecki für seine Studie in Publikations-Datenbanken und Google Scholar nach solchen Phrasen gesucht.

Hunderte Fachartikel mit KI-„Relikten“

Mit überraschendem Ergebnis: Allein aus der Zeit von Ende 2022 bis Anfang 2024 fand Strzelecki 1.362 Fachartikel, in denen die verräterischen ChatGPT-Phrasen ein oder mehrmals auftauchten – ohne dass die Nutzung einer KI zugegeben wurde. Viele dieser Veröffentlichungen waren zwar in weniger renommierten Fachjournalen erschienen, doch in immerhin 89 Fällen handelte es sich um Fachartikel aus hochrangigen, das Gutachtersystem der Peer-Review nutzenden Forschungsmagazinen. „64 dieser Artikel sind sogar in Journalen erschienen, die zum Top-Quartil (Viertel) ihres Fachgebiets gehören“, berichtet der Forscher.

Dennoch fanden sich auch in diesen vermeintlich von Gutachtern überprüften Fachartikeln KI-Phrasen wie „Als ein KI-Sprachmodell“ oder „Gerne, hier ist der geänderte Absatz …“ Offenbar waren diese Passagen weder den einreichenden Wissenschaftlern noch den Gutachtern und Editoren der Fachjournale aufgefallen. „Wie kann man wissenschaftlichen Journalen trauen, wenn selbst sie so nachlässig geprüfte Inhalte veröffentlichen?“, so Strzelecki.

*Anteil verschiedener Fachgebiete unter den 89 in renommierten Journalen erschienen KI-generierten Artikel. © Strzelecki / Learned Publishing, CC-by 4.0*

Gehäuft in Medizin und Technik

Der größte Teil der Fachartikel mit KI-Relikten stammte aus dem Medizinbereich, dicht gefolgt von Veröffentlichungen aus der Computer- und der Ingenieurswissenschaft. Aber auch Fachgebiete wie Umweltforschung, Chemie, Soziologie oder Wirtschaft waren vertreten. Insgesamt ist zwar ist der Anteil der „erwischten“ Fachartikel relativ gering, gemessen an der Gesamtzahl von rund gut zwei Millionen durchsuchten Publikationen, wie auch der Forscher einräumt.

Allerdings betont Strzelecki auch, dass seine Methode nur die Fälle gefunden hat, in denen die Autoren extrem nachlässig waren und nicht einmal die offensichtlichsten Spuren von ChatGPT beseitigt hatten. „Man muss davon ausgehen, dass es viele weitere Artikel gibt, die zumindest zum Teil durch KI generiert wurden, die aber diese Phrasen nicht mehr enthalten“, erklärt der Forscher. Hinzu kommt, dass die Verbreitung und Verwendung von künstlicher Intelligenz seit Anfang 2024 noch einmal deutlich zugenommen hat.

Nur die Spitze eines Eisbergs

Nach Ansicht von Strzelecki sind seine Funde deshalb nur die Spitze eines stetig wachsenden Eisbergs. „Der Einsatz von Tools wie ChatGPT und anderen KI-Hilfsmitteln nimmt zu und bei dieser Revolution gibt es auch kein Zurück mehr“, betont der Wissenschaftler. Daher sei es wichtig, Lösungen zu finden, solche Hilfsmittel zu verwenden, ohne dass die Qualität und Verlässlichkeit wissenschaftlicher Arbeit darunter leidet.

„Der Zeitpunkt könnte nun gekommen sein, das existierende Publikations-Prozedere einer gründlichen Überprüfung und Restrukturierung zu unterziehen“, so der Forscher. Denn angesichts der Neigung selbst der besten Sprachmodelle zum Halluzinieren und zu Fehlern, wecken KI-generierte Fachpublikationen nicht gerade Vertrauen in die Wissenschaft. „Selbst ein kleiner Prozentsatz von KI-generierten Inhalten kann in dieser Beziehung negative Auswirkungen haben, vor allem auf das Vertrauen in wissenschaftliche Publikationen“, sagt Strzelecki. (Learned Publishing, 2025; doi: 10.1002/leap.1650)

Quelle: Learned Publishing