Der Hörer

aus sub-bavaria, dem Internet-Lexikon der bayerischen Subkulturen
Zur Navigation springenZur Suche springen

[-- 15. September 2021 --]

Der Hörer ist eine Maschine. Ein Computer, also die Zukunft? Jedenfalls modern. Der Hörer sitzt in der Ecke und hört.

Was er versteht, druckt er aus. Vieles versteht er aber nicht. Oder genauer gesagt, er versteht es falsch und das ist das Interessante: das ist unser Ausgangspunkt.


Der Hörer basiert auf der OpenSource Spracherkennungsbibliothek CMU Sphinx. Sie ist nicht das modernste und beste auf dem Markt, aber sie funktioniert auch komplett offline. Der Hörer braucht ein Sprachmodell und ein Wörterbuch. Beides haben wir im Internet gefunden, die Arbeit vieler Stunden, geleistet von freundlichen Menschen. Wenn wir anschauen, was der Hörer erkennt und was nicht, können wir raten, mit welchen Texten er "trainiert" wurde: er kennt den ehmaligen Präsidenten Reagan, Regionalstellen und Feuergefahr. Die Texte waren wohl eher bürokratisch, politisch, technisch.


Das Wort Kiosk kennt der Hörer nicht. Das soll sich ändern. Wir versuchen also in den kommenden Tagen und Wochen, das Verständnis des Hörers in unserem Sinne zu erweitern. Dazu müssen wir versuchen zu verstehen, was im Innern der Maschine so passiert. Und natürlich auch die Technik bedienen. Auf dieser Seite loggen wir unsere Versuche mit. Und, was wir uns - oft haarsträubend unpräzise - zusammenreimen.


Vom Klang zum Wort

Für den Computer sind Laute eine (ziemlich komplizierte) Wellenform. In dieser Wellenform wollen wir etwas erkennen. Zum Beispiel Worte. Die Wellenform des Wortes "Computer" ist eingermaßen erkennbar. Es ist aber nicht eben ökonomisch für jedes Wort das Bild einer Wellenform zu hinterlegen.

Sinnvoller ist es, einzelne Buchstaben zu erkennen und Worte aus denen zusammenzusetzen. Eigentlich wollen wir aber gar keine Buchstaben erkennen: Im Wort Not steckt ein o, im Wort Kiosk ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Laute. Das "o" in Not ist nicht nur länger als das in Kiosk. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache und das "ch" in ich. Es gibt also mehre Laute pro Buchtaben(-kombination). Und wir müssen von dem ausgehen, was wir hören.

Ein guter Ansatz wäre also vielleicht:

  • eine Liste an Lauten, die in der gesprochenen Sprache vorkommen, aufstellen. Das sind (siehe oben) offenbar deutlich mehr als Buchstaben.
  • Diese Laute in der Wellenform erkennen
  • Die erkannten Laute Buchstaben zuordnen
  • Die erhaltenen Buchstaben mit einer Wortliste abgleichen
  • Die wahrschenlichsten Worte hinschreiben.

Eben das ist, was die Maschine tut. Mal sehen, wo wir als Amateure da eingreifen können.


Das Sprachmodell

Das Sprachmodell legt Regeln fest, wie Laute erkannt werden. Es schaut dabei nicht die Wellenform des Wortes Computer an und versucht dessen Form mit einer bekannten, komplexen, Form zu vergleichen. Sondern es sucht in dieser komplexen, zusammenhängenden Form nach viel kleineren, eher einfachen, Formen. Entsprechend viel mehr (potenzierte) Möglichkeiten gibt es. Hier halten wir uns vornehm zurück. Das ist zwar haarsträubend interessant aber eben auch völlig krasse Mathematik. Davor schrecken wir zurück.


Das Wörterbuch [-- folgt ... --]