Die Zeit18.05.2026Technik2 dk okumaGermany

KI hat Probleme mit Mainzer Dialekt

künstliche intelligenz mainzer dialekt sprachforschung

Auf einen Blick

Eine Studie der Uni Mainz zeigt, dass aktuelle KI-Modelle große Schwierigkeiten haben, den Mainzer Dialekt zu verstehen oder zu produzieren.
Die Trefferquoten lagen bei nur 4,24% bzw.

KI-generierte Zusammenfassung

Warum es wichtig ist

Eine aktuelle Studie, geleitet von der Johannes Gutenberg-Universität Mainz, hat ergeben, dass Künstliche Intelligenz erhebliche Schwierigkeiten mit dem Mainzer Dialekt hat. Aktuelle KI-Modelle verstehen oder deuten Wörter des "Meenzerisch" häufig falsch. Sprachvarianten wie Dialekte sind ein wichtiger Teil kultureller Identität, verschwinden aber aus dem alltäglichen Gebrauch und werden in der digitalen Sprachforschung bisher kaum berücksichtigt.

Schriftgröße

Künstliche Intelligenz hat einer aktuellen Studie zufolge offenbar große Probleme mit dem Mainzer Dialekt. Zu diesem Ergebnis kommt ein von der Johannes Gutenberg-Universität (JGU) Mainz geleitetes Forschungsteam.

Demnach verstehen aktuelle KI-Modelle Wörter des sogenannten Meenzerisch häufig nicht oder deuten sie falsch.

«Sprachvarianten wie Meenzerisch sind ein wichtiger Teil kultureller Identität, verschwinden aber gleichzeitig aus dem alltäglichen Gebrauch», sagte Minh Duc Bui vom Institut für Informatik der JGU, der die Studie zusammen mit Katharina von der Wense leitete, laut einer Mitteilung. «In der digitalen Sprachforschung werden regionale Dialekte bisher kaum berücksichtigt.»

KI mit Wörterbuch gefüttert

Für die Untersuchung digitalisierte ein Forschungsteam ein Mainzer Dialektwörterbuch aus dem Jahr 1966. Daraus entstand nach Angaben der Wissenschaftler ein maschinenlesbares Lexikon mit 2.351 Dialektwörtern und ihren hochdeutschen Bedeutungen.

Anschließend testeten die Forschenden mehrere frei verfügbare Sprachmodelle unterschiedlicher Größe. Diese sollten einerseits die Bedeutung von Dialektwörtern erklären und andererseits aus hochdeutschen Definitionen die passenden Begriffe im Mainzer Dialekt erzeugen.

Geringe Trefferquote

Das Ergebnis: «Die getesteten Modelle scheitern sowohl beim Verstehen als auch beim Produzieren des Dialekts», sagte Bui. Beim Erklären von Wörtern hätten die Modelle im Schnitt nur eine Trefferquote von 4,24 Prozent erreicht. Beim Erzeugen von Dialektbegriffen aus Definitionen habe die Genauigkeit sogar nur bei 0,56 Prozent gelegen.

Ko-Autor Peter Herbert Kann von der Philipps-Universität Marburg sieht darin auch ein kulturpolitisches Problem. «Das ist aus technischer Sicht interessant, zeigt aber auch, wie schnell kleinere Sprachformen in digitalen Anwendungen unsichtbar werden können», sagte er laut Mitteilung.

Nach Einschätzung der Forschenden liegt eine Ursache darin, dass Dialekte überwiegend gesprochen werden und deshalb nur wenige digitale Textdaten existieren. Langfristig seien spezielle Datensätze und neue Trainingsmethoden nötig, um regionale Sprachvarianten besser in KI-Systeme einzubinden.

Worauf zu achten ist

KI-Ausblick — Möglichkeiten, keine Fakten

Spezielle Datensätze und neue Trainingsmethoden werden entwickelt, um regionale Sprachvarianten besser in KI-Systeme zu integrieren.
Wahrscheinlich · Mittelfristig

Offene Fragen

Wie gut schneiden KI-Modelle bei anderen deutschen Dialekten ab?
Welche spezifischen KI-Architekturen sind am anfälligsten für Dialektfehler?
Gibt es bereits Ansätze oder Forschungsprojekte, die sich auf die Verbesserung der Dialektverarbeitung in KI konzentrieren?
Welche Auswirkungen hat die mangelnde Dialektunterstützung auf kulturelle Identität und digitale Inklusion?