Der Hörer: Unterschied zwischen den Versionen

aus sub-bavaria, dem Internet-Lexikon der bayerischen Subkulturen
Zur Navigation springenZur Suche springen
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
Zeile 45: Zeile 45:


   abends Q AAH B AX N TS
   abends Q AAH B AX N TS
   abendschule Q AAH B AX N CH UUH L AX
   abendschule Q AAH B AX N CH UUH L AX
  abendstern Q AAH B AX N CH T EH EX N
  akademischer Q AH K AAH D EEH M IH SH EX
  ...
  eingewöhnung Q AY N G AX V OHH N UU NG
  ...
  familienkreis F AH M IIH L IIH Y AX N K RR AY S
  familienkummer F AH M IIH L IIH Y AX N K UU M EX
  familienkutsche F AH M IIH L IIH Y AX N K UU CH AX


  abendstern Q AAH B AX N CH T EH EX N
Da haben wir sie schon, die Laute. Freaks nennen sie ''Phone''. Scheinbar sind in der Datei Worte notiert und die Aufschlüsselung in Phone dazu, Umschrift halt.
''e'' wird offenbar als EH ausgesprochen und an anderer Stelle als AX


  akademischer Q AH K AAH D EEH M IH SH EX
Das ist aber noch nicht alles Da steht öfter mal auch noch ein Q am Anfang. Das steht für kein Phon. Es scheint vor Umlauten am Anfang zu stehen. Vermutlich ist das nun eher eine Anweisung an die Maschine als ein Laut. Das alles ist mysteriös, wir können nur raten. Aber jedenfalls trauen wir uns da ran.


Da haben wir sie schon, die Laute. Freaks nennen sie ''Phone''. Scheinbar sind in der Datei Worte und dann die Aufschlüsselung in Phone, Umschrift halt.


''e'' wird offenbar als EH ausgesprochen und als AX. 


[-- folgt ... --]
[-- folgt ... --]

Version vom 16. September 2021, 17:01 Uhr

242105738-10158446374881958-8552785776614377257-n.jpg

Projekt im Rahmen von Sub City Munich 2021.

[-- 15. September 2021 --]

Der Hörer ist eine Maschine. Ein Computer, also die Zukunft? Jedenfalls modern. Der Hörer sitzt in der Ecke und hört.

Was er versteht, druckt er aus. Vieles versteht er aber nicht. Oder genauer gesagt, er versteht es falsch und das ist das Interessante: das ist unser Ausgangspunkt.


Der Hörer basiert auf der OpenSource Spracherkennungsbibliothek CMU Sphinx. Sie ist nicht das modernste und beste auf dem Markt, aber sie funktioniert auch komplett offline. Der Hörer braucht ein Sprachmodell und ein Wörterbuch. Beides haben wir im Internet gefunden, die Arbeit vieler Stunden, geleistet von freundlichen Menschen. Wenn wir anschauen, was der Hörer erkennt und was nicht, können wir raten, mit welchen Texten er "trainiert" wurde: er kennt den ehmaligen Präsidenten Reagan, Regionalstellen und Feuergefahr. Die Texte waren wohl eher bürokratisch, politisch, technisch.


Das Wort Kiosk kennt der Hörer nicht. Das soll sich ändern. Wir versuchen also in den kommenden Tagen und Wochen, das Verständnis des Hörers in unserem Sinne zu erweitern. Dazu müssen wir Worte sammeln: eine fette Liste liegt aus und jeder kann Anregungen reinschreiben. Und wir müssen versuchen zu verstehen, was im Innern der Maschine so passiert. Und natürlich auch die Technik bedienen. Unsere Versuche logge wir mit. Und, was wir uns - oft haarsträubend unpräzise - zusammenreimen; wie das alles so funktioniert:


Vom Klang zum Wort

Für den Computer sind Laute eine (ziemlich komplizierte) Wellenform. In dieser Wellenform muss der Computer etwas erkennen. Zum Beispiel Worte. Die Wellenform des Wortes "Computer" zum Besipiel ist eingermaßen erkennbar. Es ist aber nicht eben ökonomisch für jedes Wort das Bild einer Wellenform zu hinterlegen. Denn es gibt ziemlich viele Worte.

Sinnvoller (wenn auch viel schwieriger) ist es, in den Wellenformen einzelne Buchstaben zu erkennen und die Worte dann später aus denen zusammenzusetzen. Eigentlich wollen wir aber nicht wirklich Buchstaben erkennen: Im Wort Not steckt ein o, im Wort Kiosk ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Laute. Das "o" in Not ist nicht nur länger als das in Kiosk. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache und das "ch" in ich. Es gibt also mehre Laute pro Buchtaben(-kombination). Und wir müssen von dem ausgehen, was wir hören.

Ein guter Ansatz wäre also vielleicht:

  • eine Liste an Lauten, die in der gesprochenen Sprache vorkommen, aufstellen. Das sind (siehe oben) offenbar deutlich mehr als Buchstaben.
  • Diese Laute in der Wellenform erkennen
  • Die erkannten Laute Buchstaben zuordnen
  • Die erhaltenen Buchstaben mit einer Wortliste abgleichen
  • Die wahrschenlichsten Worte hinschreiben.

Eben das ist, was die Maschine tut. Mal sehen, wo wir als Amateure da eingreifen können.


Das Sprachmodell

Das Sprachmodell legt Regeln fest, wie Laute erkannt werden. Es schaut dabei nicht die Wellenform des Wortes "Computer" an und versucht dessen Form mit einer bekannten, komplexen, Form zu vergleichen. Sondern es sucht in dieser komplexen, zusammenhängenden Form nach viel kleineren, eher einfachen, Formen. Entsprechend viel mehr (potenzierte) Möglichkeiten für Mißverständnisse und Irrtümer gibt es. Wie funktioniert das Ganze? Hier halten wir uns vornehm zurück. Das ist zwar alles haarsträubend interessant aber eben auch völlig krasse Mathematik. Hier einzugreifen - davor schrecken wir zurück.


Das Wörterbuch Das Wörterbuch ist schon mal eine Textdatei, die können wir also öffnen. Vielleicht können wir hier ansetzen! Und da stehen auch wunderbare Dinge drin:

 abends Q AAH B AX N TS
 abendschule Q AAH B AX N CH UUH L AX
 abendstern Q AAH B AX N CH T EH EX N
 akademischer Q AH K AAH D EEH M IH SH EX
 ...
 eingewöhnung Q AY N G AX V OHH N UU NG
 ...
 familienkreis F AH M IIH L IIH Y AX N K RR AY S
 familienkummer F AH M IIH L IIH Y AX N K UU M EX
 familienkutsche F AH M IIH L IIH Y AX N K UU CH AX

Da haben wir sie schon, die Laute. Freaks nennen sie Phone. Scheinbar sind in der Datei Worte notiert und die Aufschlüsselung in Phone dazu, Umschrift halt. e wird offenbar als EH ausgesprochen und an anderer Stelle als AX.

Das ist aber noch nicht alles Da steht öfter mal auch noch ein Q am Anfang. Das steht für kein Phon. Es scheint vor Umlauten am Anfang zu stehen. Vermutlich ist das nun eher eine Anweisung an die Maschine als ein Laut. Das alles ist mysteriös, wir können nur raten. Aber jedenfalls trauen wir uns da ran.


[-- folgt ... --]