Der Hörer: Unterschied zwischen den Versionen

aus sub-bavaria, dem Internet-Lexikon der bayerischen Subkulturen
Zur Navigation springenZur Suche springen
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
Zeile 4: Zeile 4:
Der Hörer sitzt in der Ecke und hört.
Der Hörer sitzt in der Ecke und hört.


Was er versteht, druckt er aus. Vieles versteht er aber nicht. Oder genauer gesagt, er versteht es falsch und  das ist das interessante: das ist unser Ausgangspunkt.
Was er versteht, druckt er aus. Vieles versteht er aber nicht. Oder genauer gesagt, er versteht es falsch und  das ist das Interessante: das ist unser Ausgangspunkt.




Zeile 11: Zeile 11:




Das Wort ''Kiosk'' eknnt der Hörer nicht. Das soll sich ändern. Wir versuchen also in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern. Dazu müssen wir versuchen zu verstehen, was im Innern der Maschine so passiert. Und natürlich auch die Technik bedienen. Auf dieser Seite loggen wir unsere Versuche mit. Und, was wir uns - oft haarsträubend unpräzise - zusammenreimen.  
Das Wort ''Kiosk'' kennt der Hörer nicht. Das soll sich ändern. Wir versuchen also in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern. Dazu müssen wir versuchen zu verstehen, was im Innern der Maschine so passiert. Und natürlich auch die Technik bedienen. Auf dieser Seite loggen wir unsere Versuche mit. Und, was wir uns - oft haarsträubend unpräzise - zusammenreimen.  






Wir versuchen in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern.
Für den Computer sind Laute eine( ziemlich komplizierte) Wellenform. In dieser Wellenform wollen wir etwas erkennen. Zum Beispiel Worte. Die Wellenform des Wortes "Computer" ist eingermaßen erkennbar. Deutlich komplexer ist es, die einzelnen Buchstaben zu erkennen.  
Dazu versuchen wir zu verstehen, was in der Maschine passiert.
Eigentlich wollen wir gar keine Buchstaben erkennen. Im Wort ''Not'' steckt ein o, im Wort ''Kiosk'' ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Laute. Das "o" in ''Not'' ist nicht nur länger als das in ''Kiosk''. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache'' und das "ch" in ''ich''.
Ein guter Ansatz wäre also vielleicht:
* eine Liste an Lauten, die in der gesprochenen Sprache vorkommen aufstellen. Das sind (siehe oben) offenbar deutlich mehr als Buchstaben.
* Diese Laute in der Wellenformerkennen
* Diese Laute Buchstaben zuordnen
* Die erhaltenen Buchstaben mit einer Wortliste abgleichen
* Die wahrschenlichsten Worte hinschreiben.  


'''Das Model'''


Das Sprachmodell legt Regeln fest, wie Laute erkannt werden. Man kann hier präzise werden und die Laute ''Phone'' nennen und alle Phone mit der selben Bedeutung (Buchtabe) "Phonem" und sich dann noch streiten. Uns sind die Begriffe eigentlich egal, wollen wir sie ruhig auch ab jetzt ''Phone'' nennen. Wichtiger als der Begriff ist, was das alles in der Realität bedeutet: im Wort ''Not'' stekckt ein o, im Wort ''Kiosk'' ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche ''Phone''. Das "o" in ''Not'' ist nicht nur länger als das in ''Kiosk''. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache'' und das "ch" in ''ich''.
[...]
 
Streiten kann man sich nun, ob es der selbe ''Laut'' ist, wenn Daniela ''ich'' sagt und wenn Patrick ''ich'' sagt. Auf der einen Seite natürlich nicht. Sie haben unterschiedliche Stimmen, also sind es unterschiedliche Laute. Für unseren Anwendungsfall müsssen wir das "ch" in ''ich'' aber immer als das selbe ''Phon'' betrachten: wir wollen ja das selbe Ergebnis, egal wer spricht. Das "ch" in Sprache ist also ein Phon - egal wer es spricht - und das "ch" in ich ein anderes. Das "ch" in ''doch'' ist dagegen das selbe wie das in ''Sprache'' - oder?
 
Um Sprache zu verstehen, fangen wir ganz unten an und nutzen die verschiedenen Phone, die tatsächlich gesprochen werden. Das sind (wie man oben schon sieht) deutlich mehr als Buchstaben. Das Model muss dann die ungeheure Arbeit leisten, in grafischen Wellenformen (das ist was der Computer aus Sprache bekommt) die unterschiedlichen Phone zu erkennen.
Hier halten wir uns vornehm zurück. Das ist zwar haarsträubend interessant aber eben auch völlig krasse Mathematik. Davor schrecken wir zurück.
 
 
'''Das Wörterbuch'''
...

Version vom 15. September 2021, 18:35 Uhr

[15. September 2021]

Der Hörer ist eine Maschine. Ein Computer, also die Zukunft? Jedenfalls modern. Der Hörer sitzt in der Ecke und hört.

Was er versteht, druckt er aus. Vieles versteht er aber nicht. Oder genauer gesagt, er versteht es falsch und das ist das Interessante: das ist unser Ausgangspunkt.


Der Hörer basiert auf der OpenSource Spracherkennungsbibliothek CMU Sphinx. Sie ist nicht das modernste und beste auf dem Markt, aber sie funktioniert auch komplett offline. Der Hörer braucht ein Sprachmodell und ein Wörterbuch. Beides haben wir im Internet gefunden, die Arbeit vieler Stunden, geleistet von freundlichen Menschen. Wenn wir anschauen, was der Hörer erkennt und was nicht, können wir raten, mit welchen Texten er "trainiert" wurde: er kennt den ehmaligen Präsidenten Reagan, Regionalstellen und Feuergefahr. Die Texte waren wohl eher bürokratisch, politisch, technisch.


Das Wort Kiosk kennt der Hörer nicht. Das soll sich ändern. Wir versuchen also in den kommenden Tagen und Wochen, das Verständnis des Hörers zu erweitern. Dazu müssen wir versuchen zu verstehen, was im Innern der Maschine so passiert. Und natürlich auch die Technik bedienen. Auf dieser Seite loggen wir unsere Versuche mit. Und, was wir uns - oft haarsträubend unpräzise - zusammenreimen.


Für den Computer sind Laute eine( ziemlich komplizierte) Wellenform. In dieser Wellenform wollen wir etwas erkennen. Zum Beispiel Worte. Die Wellenform des Wortes "Computer" ist eingermaßen erkennbar. Deutlich komplexer ist es, die einzelnen Buchstaben zu erkennen. Eigentlich wollen wir gar keine Buchstaben erkennen. Im Wort Not steckt ein o, im Wort Kiosk ebenfalls. Beide sind der selbe Buchstabe - aber unterschiedliche Laute. Das "o" in Not ist nicht nur länger als das in Kiosk. Es ist auch irgendwie anders. Reiner. Aber geschlossener (ganz spitze Lippen). Egal, wie man es beschreibt: jedenfalls sind sie unterschiedlich. Das selbe gilt für das "ch" in 'Sprache und das "ch" in ich. Ein guter Ansatz wäre also vielleicht:

  • eine Liste an Lauten, die in der gesprochenen Sprache vorkommen aufstellen. Das sind (siehe oben) offenbar deutlich mehr als Buchstaben.
  • Diese Laute in der Wellenformerkennen
  • Diese Laute Buchstaben zuordnen
  • Die erhaltenen Buchstaben mit einer Wortliste abgleichen
  • Die wahrschenlichsten Worte hinschreiben.


[...]