Der Hörer

aus sub-bavaria, dem Internet-Lexikon der bayerischen Subkulturen
Zur Navigation springenZur Suche springen

Der Hörer ist eine Maschine. Ein Computer, also die Zukunft. Jedenfalls modern. Der Hörer sitzt in der Ecke und hört. Was er versteht, druckt er aus.

Vieles versteht er aber nicht - beziehungsweise falsch. Das ist unser Ausgangspunkt, um die Zukunft ein bisschen zu untersuchen.


Der Hörer basiert auf der OpenSource Spracherkennungsbibliothek CMU Sphinx. Sie ist nicht das modernste und beste auf dem Markt, aber sie funktioniert auch komplett offline. Der Hörer benutzt ein vorgefertigtes Sprachmodell und ein vorgefertigtes Wörterbuch. Daran, was der Hörer erkennt und was nicht können wir raten, mit welchen Texten Modell und Wörterbuch erstellt wurden. Er kennt den ehmaligen Präsidenten Reagan, Regionalstellen und Feuergefahr. Aber nicht das Wort Kiosk. Das soll sich ändern.


Wir versuchen in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern. Dazu versuchen wir zu verstehen, was in der Maschine passiert.

Das Model

Das Sprachmodell legt Regeln fest, wie Laute erkannt werden. Man kann hier präzise werden und die Laute Phone nennen und alle Phone mit der selben Bedeutung (Buchtabe) "Phonem" und sich dann noch streiten. Uns sind die Begriffe eigentlich egal, wollen wir sie ruhig auch ab jetzt Phone nennen. Wichtiger als der Begriff ist, was das alles in der Realität bedeutet: im Wort Not stekckt ein o, im Wort Kiosk ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Phone. Das "o" in Not ist nicht nur länger als das in Kiosk. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache und das "ch" in ich.

Streiten kann man sich nun, ob es der selbe Laut ist, wenn Daniela ich sagt und wenn Patrick ich sagt. Auf der einen Seite natürlich nicht. Sie haben unterschiedliche Stimmen, also sind es unterschiedliche Laute. Für unseren Anwendungsfall müsssen wir das "ch" in ich aber immer als das selbe Phon betrachten: wir wollen ja das selbe Ergebnis, egal wer spricht. Das "ch" in Sprache ist also ein Phon - egal wer es spricht - und das "ch" in ich ein anderes. Das "ch" in doch ist dagegen das selbe wie das in Sprache - oder?

Um Sprache zu verstehen, fangen wir ganz unten an und nutzen die verschiedenen Phone, die tatsächlich gesprochen werden. Das sind (wie man oben schon sieht) deutlich mehr als Buchstaben. Das Model muss dann die ungeheure Arbeit leisten, in grafischen Wellenformen (das ist was der Computer aus Sprache bekommt) die unterschiedlichen Phone zu erkennen. Hier halten wir uns vornehm zurück. Das ist zwar haarsträubend interessant aber eben auch völlig krasse Mathematik. Davor schrecken wir zurück.


Das Wörterbuch ...