Der Hörer

aus sub-bavaria, dem Internet-Lexikon der bayerischen Subkulturen
Zur Navigation springenZur Suche springen

Der Hörer sitzt in der Ecke und hört. Was er versteht, druckt er.

Vieles versteht er aber nicht. Beziehungsweise falsch. Das ist unser Ausgangspunkt.


Der Hörer basiert auf der openSource (offline-) Spracherkennungsbibliothek CMU Sphinx. Sie ist nicht das modernste und beste auf dem Markt, aber sie funktioniert auch komplett offline. Der Hörer benutzt ein vorgefertigtes Sprachmodell und ein vorgefertigtes Wörterbuch. Daran, was der Hörer erkennt und was nicht können wir raten, mit welchen Texten Modell und Wörterbuch erstellt wurden. Er kennt den ehmaligen Präsidenten Reagan, Regionalstellen und Feuergefahr. Aber nicht das Wort Kiosk. Das soll sich ändern.


Wir versuchen in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern. Dazu versuchen wir zu verstehen, was in der Maschine passiert.

Das Model

Das Sprachmodell legt Regeln fest, wie Laute erkannt werden. Man kann hier ausufern und das Ganze Phone nennen und alle Phone "das Phonem einer Sprache" und sich dann noch streiten. Uns sind die Begriffe eigentlich egal. Wollen wir sie auch ab jetzt Phone nennen. Wichtiger als der Begriff ist, was das alles in der Realität bedeutet: im Wort Not stekckt ein o, im Wort Kiosk ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Laute. Das o in Not ist nicht nur länger als das in Kiosk. E ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spize Lippen). Egeal, wie man das beschreibt: jedenfalls unterschiedlich. Das selbe gilt für das ch in 'Sprache oder in ich. Streiten kann man sich dann, ob es der selbe Laut ist, wenn Daniela ich sagt und wenn Patrick ich sagt. Auf der einen Seite natürlich nicht. Sie haben unterschiedliche Stimmen, also sind es unterschiedliche Laute. Wir aber wollen es als das selbe Phon betrachten: wir wollen ja das selbe Ergebnis, egal wer spricht.

Um Sprache zu verstehen, fangen wir also mal ganz unten an und nutzen die verschiedenen Phone, die tatsächlich gesprochen werden. Das sind (wie man oben schon sieht) deutlich mehr als Buchstaben. Das Model muss dann die ungeheure Arbeit leisten, in grafischen Wellenformen (das ist was der Computer aus Sprache bekommt) die unterschiedlichen Phone zu erkennen. Das Wörterbuch

sdf