Gehirn verarbeitet gesprochene Laute und ihren Widerhall getrennt
Ein Sprecher, zwei Tonspuren: Das menschliche Gehirn trennt Sprachsignale mit Echo automatisch in zwei Tonspuren und verarbeitet die direkte Sprache und ihr Echo separat voneinander, wie Forschende herausgefunden haben. Damit löst unser Hirn das Verständnisproblem bei Audioaufnahmen mit Widerhall erfolgreicher als es die gängige Technik zur automatischen Spracherkennung kann.
Die Audiosignale in Online-Meetings und im Auditorium bei Live-Vorträgen weisen oft ein Echo auf, das 100 Millisekunden oder mehr hinter der ursprünglichen Rede herhinkt. Diese Echos verzerren die Sprache stark und stören insbesondere Klangmerkmale mit niedriger Frequenz, die für das Verständnis von Gesprächen wichtig sind. Dennoch verstehen Menschen solche echohaltige Sprache sehr zuverlässig, wie frühere Studien belegen.
Wie verarbeitet das Gehirn Echos?
Warum das so ist, hat nun ein Team um Jiaxin Gao von der Zhejiang-Universität in China genauer untersucht. Um zu verstehen, wie das Gehirn Sprache mit Widerhall verarbeitet, spielten die Forschenden insgesamt 51 Versuchspersonen eine Geschichte mit und ohne Echo vor. Die Echoverzögerung war dabei zwischen 0,125 und 0,25 Sekunden lang. Gleichzeitig zeichneten die Wissenschaftler per Magnetenzephalographie (MEG) die neuronale Aktivität im Gehirn der Probanden auf.
Anschließend beantworteten die Testpersonen Verständnisfragen zur gehörten Geschichte. Gao und ihre Kollegen verglichen zudem die neuronalen Signale mit denen zweier Modelle: Eines simulierte die Anpassung des Gehirns an das Echo und ein anderes simulierte die Trennung des Echos von der ursprünglichen Sprache durch das Gehirn.
Zwei getrennte Signalströme
Das Ergebnis: Die Teilnehmenden verstanden die vorgelesene Geschichte unabhängig vom Echo mit einer Genauigkeit von über 95 Prozent. Das belegt, dass das menschliche Gehirn kein Verständnisproblem bei Echos hat. Der Vergleich der Modelle mit den aufgezeichneten Hirnaktivitäten ergab, dass das zweite Modell deutlich besser mit den neuronalen Signalen übereinstimmte als das erste Modell.
Demnach passt sich unser Gehirn nur geringfügig an das Echo an und kompensiert es teilweise. Dafür teilt das auditorische System die ursprüngliche Sprache und ihr Echo jedoch zusätzlich in separate Signalströme auf und kodiert sie getrennt voneinander. „Diese Trennung des auditorischen Reizstroms ermöglicht dem Gehirn die separate Verarbeitung der Merkmale, die zum direkten Sprachklang gehören, und denen des Echos“, erklärt das Team.
Keine erhöhte Aufmerksamkeit nötig
In einem Folgeexperiment schauten die Probanden einen Stummfilm, während sie die Geschichte vorgespielt bekamen. Sie bekamen dabei die Anweisung, auf den Film zu achten und die Tonaufnahme zu ignorieren. Die Auswertung der Hirnaktivitäten kam dennoch zum selben Ergebnis wie ohne den Film.
Gao und ihre Kollegen schließen daraus, dass wir uns nicht aktiv anstrengen müssen, um direkte Sprache und ihr Echo mental zu trennen. Auch ohne gezielte Aufmerksamkeit sorgt unser Gehirn für ein gutes Sprachverständnis.
Besser als die Technik
„Echos verzerren die Klangmerkmale von Sprache stark und stellen eine Herausforderung für die automatische Spracherkennung dar. Das menschliche Gehirn kann jedoch Sprache von ihrem Echo trennen und so Gesprochenes mit Widerhall zuverlässig erkennen“, betont Gao. Die Forschenden vermuten, dass die beobachtete Trennung der Hörströme nicht nur nötig ist, um einen Sprecher in einem Raum mit Widerhall klar zu verstehen, sondern auch hilft, einen bestimmten Sprecher in einer überfüllten Umgebung herauszuhören.
In weiteren Studien wollen sie nun herausfinden, an welchem Wegpunkt der neuronalen Geräuschverarbeitung – vom Ohr bis zum Gehirn – die Trennung der Tonspuren erfolgt. Daraus erhoffen sie sich weitere Hinweise, wie sich diese Fähigkeit zur Spracherkennung technisch nachahmen und nutzen lässt. (PLoS Biology, 2024; doi: 10.1371/journal.pbio.3002498)
Quelle: PLOS