Wolfram Language

Reconnaissance de la parole

La reconnaissance automatique de la parole (en anglais, Automatic Speech Recognition, ASR), également connue sous le nom de reconnaissance vocale (en anglais, Speech-To-Text, STT), est le processus de reconnaissance automatique et de conversion des enregistrements vocaux en texte. La reconnaissance vocale est largement utilisée dans les systèmes de transcription automatique à grande échelle, les assistants virtuels et l'aide à domicile, les systèmes de contrôle à commande vocale, les systèmes de dictée, les systèmes téléphoniques automatisés, etc.

La version 12 présente SpeechRecognize pour la reconnaissance automatique de la parole.

Voici un signal vocal trouvé sur Internet.

Visualisez le spectrogramme de ce signal.

Voici le résultat de la reconnaissance vocale sur ce signal. Le processus de reconnaissance vocale consiste à utiliser un réseau neuronal pour calculer une transcription brute du signal, puis à envoyer la transcription au moyen d'un modèle de langue pour corriger les fautes d'orthographe et plus encore.

Exemples connexes

de en es ja ko pt-br zh