Home KybernetikDeepSeek und Co scheitern am „Last Exam“
DeepSeek und Co scheitern am „Last Exam“

DeepSeek und Co scheitern am „Last Exam“

Ultimativer Test bringt selbst beste künstliche Intelligenzen an ihre Grenze

„Humanity’s Last Exam“: KI-Forscher haben einen neuen Test entwickelt, an dem selbst die besten aktuellen KI-Modelle scheitern – noch. Große Sprachmodelle wie DeepSeek, OpenAI-o1 oder Gemini 2.0 lösten weniger als zehn Prozent der 3.000 Aufgaben korrekt, die meisten erreichten sogar nur rund fünf Prozent. Die Menschheit hat demnach zumindest in der Wissenschaft auf Expertenniveau noch einen Vorsprung. Die Fragen des „Last Exam“ stammen aus mehr als 100 Fachgebieten und wurden von Forschenden weltweit eingereicht.

Künstliche Intelligenz entwickelt sich rasant weiter, vor allem die Fähigkeiten der Großen Sprachmodelle (LLM) machen immer größere Fortschritte. Zuletzt sorgten neue Reasoning-Modelle wie OpenAI-o1 und DeepSeek-R1 für Aufsehen. Diese KI-Systeme zerlegen komplexe Aufgaben in logische Schritte und prüfen verschiedene Lösungsansätze, bevor sie eine Antwort formulieren. Auch wenn Probleme wie Halluzinationen, irrationale Fehler und absichtliches Lügen bleiben, bestehen die Top-Sprachmodelle heute problemlos Tests, die vor gut zwei Jahren noch eine echte Hürde darstellten.

Anteile verschiedener Wissenschaftsgebiete am „Humanity’s Last Exam“.
© Phan et al./ arxiV, 2025; CC-by 4.0

„Je näher die KI-Systeme an die Leistungen menschlicher Experten herankommen, desto wichtiger wird es, ihre Fähigkeiten und Grenzen genau zu kennen“. erklärt ein Team um Dan Hendrycks vom Center für AI Safety und Summer Yue von Scale AI. Doch die gängigen Benchmarks sind in dieser Hinsicht weitgehend ausgeschöpft, die neuesten KI-Modelle erreichen in ihnen mehr als 90 Prozent. „Das begrenzt unsere Fähigkeit, die KI-Leistungen präzise zu messen und erfordert anspruchsvollere Tests, die die schnellen Fortschritte der Großen Sprachmodelle abbilden können“, so Hendrycks und sein Team.

Humanity’s Last Exam

Einen solchen Test haben die KI-Forscher nun entwickelt – mithilfe von mehr als tausend Wissenschaftlern aus Universitäten, Forschungszentren und weiteren wissenschaftlichen Einrichtungen in 50 Ländern. Der „Humanity’s Last Exam“ getaufte Test umfasst 3.000 Fragen aus 100 verschiedenen Fachgebieten – von Mathematik und Physik über Medizin, Chemie und Computerwissenschaften bis zu Linguistik und Geisteswissenschaften.

Beispiele für Aufgaben im Last Exam. © Phan et al./ arxiV, 2025; CC-by 4.0

„Der Test umfasst 3.000 der schwersten, vielseitigsten und multimodalen Fragen und ist als ultimatives akademisches Examen dieser Art für die KI gedacht“, erklärt das Team. Die Fragen sind so konzipiert, dass sie nicht durch einfache Internetsuche oder Blick in die Trainingsdaten gelöst werden können. 80 Prozent der Fragen erfordern eine spezifische, automatisch überprüfbare Antwort, ein kleiner Teil sind Multiple-Choice-Fragen. Rund zehn Prozent der Aufgaben sind multimodal und erfordern beispielsweise die Auswertung eines Bilds oder Diagramms.

„Das Last Exam ist so ausgelegt, dass es sowohl die Fähigkeit zum Reasoning testet, beispielsweise bei mathematischen Problemen, als auch die Breite des Wissens in den verschiedenen Fachgebieten“, erklärt Scale AI das Prinzip.

Zu schwer für DeepSeek, GPT-o1 und Co

Inzwischen haben mehrere Top-Sprachmodelle dieses „Last Exam“ absolviert, darunter OpenAI-o1, Gemini 2.0 Flash Thinking, DeepSeek R1 und die Top-Modelle von Llama und Qwen. Das Ergebnis: Keine dieser künstlichen Intelligenzen erreichte im Test mehr als zehn Prozent. Das beste Resultat im multimodalen Modus erzielte OpenAI-o1 mit 9,07 Prozent, im textbasierten Modus lag DeepSeek-R1 mit 9,35 Prozent vorn. Gemini 2.0 erreichte 7,67 Prozent im multimodalen Modus, Llama und Qwen lagen jeweils um fünf Prozent.

„Die meisten KI-Modelle tun sich mit dem Last Exam schwer, auch wenn die Reasoning-Modelle tendenziell ein wenig besser abschneiden als die ohne diese Fähigkeiten“, berichten Hendrycks und sein Team. „Dieser geringe Erfolg ist zum Teil provoziert: Bei der Auswahl der Fragen haben wir diejenigen aussortiert, die gängige KI-Modelle schon von vornherein korrekt beantworten konnten.“

Abschneiden einiger Großer Sprachmodelle bei herkömmlichen Benchmarks und beim Last Exam (HLE). © Phan et al./ arxiV, 2025; CC-by 4.0

Hohe Selbstsicherheit trotz falscher Antworten

Auffallend war zudem: Alle getesteten KI-Systeme gaben ihre falschen Antworten mit großer Überzeugung und schätzten ihre Zuverlässigkeit als hoch ein. Diese Diskrepanz zwischen Korrektheit und Selbsteinschätzung gilt als Zeichen für eine schlecht kalibrierte künstliche Intelligenz. „Bei einem gut kalibrierten System sollten Korrektheit und Selbstvertrauen in einer Benchmark etwa gleich hoch sein“, erklärt Scale AI. Also bei einer Trefferquote von rund 50 Prozent sollte die KI auch ihre eigene Leistung auf etwa diesen Wert einschätzen.

Im „Last Exam“ war dies jedoch anders: Die KI-Modelle schätzten die Zuverlässigkeit ihrer Antworten auf mehr als 80 Prozent ein, lagen aber in weniger als zehn Prozent der Aufgaben richtig. „Sie erkennen nicht, wenn eine Aufgabe ihre eigenen Fähigkeiten übersteigt“, schreiben Hendrycks und sein Team. Eine solche Fehlkalibrierung gelte zudem als starker Beleg für Halluzinationen und Herumfabulieren der Modelle.

Wie geht es weiter?

Allerdings: Auch wenn DeepSeek, OpenAI-o1 und Co bisher im „Humanity’s Last Exam“ eher schwach abschneiden, wird dies nicht lange so bleiben. „Angesichts der rapiden Entwicklung der künstlichen Intelligenz ist es plausibel, dass KI-Modelle schon Ende 2025 mehr als 50 Prozent der Aufgaben im Last Exam korrekt lösen werden“, prognostizieren die KI-Forscher. Ein gutes Abschneiden im ständig weiterentwickelten KI-Examen wäre dann ein Zeichen dafür, dass KI-Systeme sich in ihren wissenschaftlichen Kenntnissen mit menschlichen Experten messen können.

Aber das allein wäre noch kein Zeichen für eine „Artificial General Intellgence (AGI) – eine KI, die uns Menschen in allen Bereichen ebenbürtig oder sogar überlegen ist: „Unser Test umfasst strukturierte akademische Probleme und ist daher eine Benchmark für technisches Wissen und Reasoning – weniger für ergebnisoffene Forschung oder kreative Problemlösungs-Fähigkeiten“, schreiben die KI-Forscher. „Das Last Exam könnte zwar der letzte akademische Test sein, den wir den KI-Modellen geben, aber es ist keineswegs die allerletzte Benchmark für künstliche Intelligenz.“

Die KI-Forscher sehen in ihrem „Humanity’s Last Exam“ aber eine wichtige Messlatte, um beispielsweise die Entwicklung der künstlichen Intelligenz und potenzielle Risiken besser einschätzen zu können. Das sei vor allem wichtig, um notwendige Regelungen und Einschränkungen zu beschließen. (arxiV Preprint, 2025; doi: 10.48550/arXiv.2501.14249)

Quelle: Scale AI, Center für AI Safety