Sprache mit einem KNN untersuchen
In diesem Beispiel wird Sprache mit der integrierten SpeechRecognize-Funktion erkannt. Ein neuronales Netz aus dem Wolfram Neural Net Repository wird auch verwendet, um das Signal in eine Liste von Zeichen umzuschreiben.
Beginnen Sie mit einem synthetischen Sprachsignal.
Erkennen Sie die gesprochene Sprache im Audioobjekt.
Wählen Sie nun ein vortrainiertes Spracherkennungsnetz.
Bewerten Sie das neuronale Netz anhand der folgenden synthetisierten Sprache. Das Netzwerk gibt eine Liste der Zeichen zurück, die von der Audioaufzeichnung erkannt wurden.
Reihen Sie die Buchstaben aneinander, um eine vorläufige Version der erkannten gesprochenen Sprache zu erhalten.
Das Netzwerk wurde mit einem CTC-Verlust trainiert, um die Liste der Frames der Eingabe in eine Buchtsabenliste zu verwandeln, wobei die Tatsache berücksichtigt wurde, dass ein einzelner Buchstabe sich über mehrere Einzelbilder strecken kann.
Sie können die Ausgabe des Netzwerks kurz vor der CTC-Dekodierung visualisieren, um die Wahrscheinlichkeiten aller Buchstaben zu jedem Zeitpunkt zu erhalten. Die untere Achse ist mit einer Zwischendekodierung beschriftet, die sich daraus ergibt, dass der Buchtsabe mit der größten Wahrscheinlichkeit pro Frame genommen wird.