nd-aktuell.de / 04.11.2015 / Wirtschaft und Umwelt

»Sie ha-ben ein-e neu-e Nach-richt«

Wie Computer sprechen lernen: Arndt Riester sucht neue Wege, Spracherkennung und Verarbeitung zu programmieren

Birgit Vey

Stuttgart. »Sie ha-ben ein-e neu-e Nach-richt«, so holprig-hölzern hören sich Computer- oder Roboter-Stimmen oft an. Diese Maschinen sind mit Spracherkennung und Sprachverarbeitungs-Programmen gefüttert - doch nicht immer geben sie den gemeinten Inhalt wieder. Der Stuttgarter Computerlinguist Arndt Riester sucht neue Wege, um der Elektronik das richtige Sprechen beizubringen.

Texte in Gesprochenes verwandeln, das leisten beispielsweise Vorlesegeräte, die vor allem Blinde häufig nutzen. Für den umgekehrten Weg, Worte in Schriftliches umwandeln, kann man zu Diktierprogrammen greifen. Sprechende Tablets und Navi-Geräte sowie Anwendungen auf Smartphones sind weitere Einsatzgebiete für Sprachtechnologien. »Diese Maschinen-Stimmen sollen natürlicher klingen«, nennt Riester, Mitarbeiter beim Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart, als Ziel. Das gelingt, indem der monotone Sprachfluss durch Klangfarben, wie etwa hohe oder tiefe Stimmlagen, ersetzt wird. Gleichzeitig bilden sich so inhaltliche Schwerpunkte heraus.

»Man geht mit der Stimme nach oben, wenn etwas betont wird«, erläutert der Wissenschaftler. Wobei durch das hervorgehobene Wort Unterschiedliches ausgesagt wird. Denn wird im Satz »Das Geschenk brachte Paul« das Geschenk hervorgehoben, soll deutlich gemacht werden, um welches Objekt es geht: also um ein Geschenk und nicht etwa um Gepäck. Hat dagegen das Wort am Satzende mehr Bedeutung, zielt diese Betonung auf die Person ab: Gemeint ist Paul und nicht etwa Peter.

»Die Betonung muss an die richtige Stelle gesetzt werden«, sagt der Linguist. Dafür braucht eine Software Regeln. Eine Regel lautet: Neue Information finden und verstärken. »Es werden die vorherigen Text- oder Sprachstellen durchsucht. War beispielsweise schon mehrfach von Paul die Rede, ist das neue und damit zu betonende Wort ‘Geschenk’«, sagt Riester.

Doch die Sache ist komplizierter. Beispielsweise bei Angela Merkel. Steht an anderen Textstellen Bundeskanzlerin oder CDU-Politikerin, »übersieht« der Rechner, dass dieselbe Person gemeint ist. »Dieses Wissen hat jeder von uns im Kopf. Damit aber eine Software die Zusammenhänge erkennt, muss ihr diese Hintergrundinformation mitgeliefert werden, etwa durch Datenbanken wie Wikipedia.«

Fachleute sprechen dann von »Wissensquellen«, mit denen eine Software ausgestattet wird. Durch diese lassen sich auch Gemeinsamkeiten finden und in Klassen einordnen. Obst (Äpfel, Birnen usw.) ist eine Klasse, die sich von anderen Klassen wie Orte (Markt, Geschäft) unterscheidet. Hat eine Software diesen Schritt geschafft, greift eine weitere Regel: Gegensätze werden betont.

Ab den späten 50er Jahren startete die Computerlinguistik in den USA. Damals hoffte man auf automatische, also maschinelle Übersetzungen. Die Resultate waren schlecht, die Förderung wurde eingestellt. Seit den 70er Jahren wird der Begriff Computerlinguistik offiziell verwendet. Die ersten entsprechenden Studiengänge in Deutschland bot neben dem Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart die Universität des Saarlandes an. Heute kann man das Fach unter anderem in Potsdam, München oder Zürich studieren.

Im Vergleich zu den Anfängen können Computerlinguisten wie Riester heute auf große Datenmengen zugreifen, die durchs Internet zugänglich sind. Aber es gibt noch viel tun. Denn damit eine Roboter-Stimme natürlicher wirkt, müssen auch Gespräche analysiert werden. Riester wird etwa deutsche und französische Dialoge vergleichen: Er will klären, welche Rolle Pausen bei der Akzentuierung in der jeweiligen Sprache spielen. Ein weiteres Feld sind Fragen. Denn ein »Gehen wir in den Zoo?« (Nachfrage), »Wir gehen in den Zoo?« (Entsetzen) oder »Wir gehen in den Zoo, oder?« (Unsicherheit) sagt Verschiedenes aus - und das spiegelt sich in unterschiedlichen Tonlagen.

Riester nutzt für seine Forschungen 60 Interviews des Radiosenders SWR 2. Die Auswertung dieser spontan gesprochenen Worte ist noch in vollem Gange. Nach einem Jahr abgeschlossen ist der zweite Basis-Datensatz, vorgelesene und abgetippte Radionachrichten des Deutschlandfunks. Langfristig visiert er an, Texte vom Computer so gut in ihren Feinheiten und Komplexitäten zu erfassen, dass sich genaue Regeln aufstellen lassen. Klappt das, wird die Maschinenstimme wie ein guter Vorleser funktionieren: Sie versteht den Inhalt, betont richtig - und sagt korrekt, was gesagt werden soll. epd/nd