KI versus Mensch: Grammatik können Menschen besser

Neue Studie zeigt Unterschiede in der Sprachverarbeitung – mit Konsequenzen für die Forschung

Screenshot eines Dialogs mit ChatGPT
Foto: Dr. Fritz Günther

Wenn man KI-Anwendungen wie ChatGPT ausprobiert, kann leicht der Eindruck entstehen, das Werkzeug würde Sprache und Sprachverarbeitung beherrschen. Doch über welche Sprachkenntnisse verfügen diese Modelle wirklich? Sind sie vergleichbar mit denen von Menschen? Dies hat ein Forscherteam unter Leitung der Universitat Rovira i Virgili of Tarragona, Spanien, mit Beteiligung der Humboldt-Universität zu Berlin, der Universitat Autònoma de Barcelona (UAB) und des Catalan Institute of Research and Advanced Studies (ICREA) getestet. Sie verglichen die Fähigkeiten von Menschen mit den zum Zeitpunkt der Studie verfügbaren drei leistungsfähigsten großen Sprachmodelle: zwei auf der Grundlage von GPT3 und eines, ChatGPT, auf der Grundlage von GP3.5.

Für das Experiment konfrontierten die Forscher*innen sowohl die Studienteilnehmer*innen als auch die Sprachmodelle mit denselben Sätzen. Daraufhin wurde die Frage gestellt: „Ist dieser Satz grammatikalisch korrekt?" Ergebnis: Während Menschen korrekt antworteten, gaben die Sprachmodelle vielfach falsche Antworten. Sie antworteten meistens mit „Ja“, unabhängig davon, ob die Antwort richtig war oder nicht. Außerdem waren die Antworten der Sprachmodell unbeständiger als die der Menschen. Wurde die Frage nach der Korrektheit zu denselben Sätzen wiederholt, wechselten die Antworten häufig zwischen „Ja“ und „Nein.

Psychologische Forschung sollte immer noch auf den Menschen gerichtet sein“

„Sprachmodelle verarbeiten Sprache eben doch teilweise anders als wir Menschen“, so die Schlussfolgerung von Dr. Fritz Günther vom Institut für Psychologie der Humboldt-Universität, der die Daten der menschlichen Versuchsteilnehmer erhoben und alle Datensätze (Menschen und Language Models) ausgewertet hat.

Dieses Ergebnis sollte Konsequenzen für die Forschung haben, meint Günther, der an der HU die Emmy Noether Nachwuchsgruppe „Was ist ein Name?“ leitet. „In meiner Forschung zu Wortbedeutungen benutzen wir Language Models als Modelle um zu verstehen, wie Menschen Sprache verarbeiten. Wir müssen hier also vorsichtig mit unseren Annahmen sein und für jedes Phänomen gründlich testen, ob wir die Modellvorhersagen wirklich auf Menschen übertragen können.“ Aktuell gebe es in der Forschung großes Interesse daran, prominente psychologische Studien mit Sprachmodellen zu wiederholen. „Das kann ein sehr spannendes und erkenntnisreiches Experiment sein, sollte aber nicht dazu verleiten, unsere Theorien irgendwann nur noch an Language Models zu testen. Psychologische Forschung sollte immer noch auf den Menschen gerichtet sein“, mahnt Fritz Günther.

Weitere Informationen

Pressemitteilung der Universitat Rovira i Virgili of Tarragona

Artikel in PNAS (Proceedings of the National Academy of Sciences of the United States of America): Systematic testing of three Language Models reveals low language accuracy, absence of response stability, and a yes-response bias.

zur Nachrichten-Übersicht

Nachricht vom 22.02.24 erstellt von Abteilung Kommunikation, Marketing und Veranstaltungsmanagement

Presseportal