Reconocimiento de voz: Novedades en Wolfram Language 12

Reconocimiento de voz

El reconocimiento automático de voz (ASR, por su sigla en inglés), también conocido como voz a texto (STT, por su sigla en inglés), es el proceso de reconocimiento y conversión automáticos de grabaciones habladas de texto. El reconocimiento de voz es muy utilizado en sistemas de transcripción automáticos de gran escala, asistentes virtuales y del hogar, sistemas de control habilitados por voz, sistemas de dictado, sistemas de teléfono automatizados y más.

La versión 12 introduce SpeechRecognize para reconocer voz de forma automática.

Esta es una señal de voz que se encuentra en la web.

Visualice el espectrograma de la señal.

Y este es el resultado del reconocimiento de voz en dicha señal. El proceso de reconocimiento de voz es una forma de usar redes neuronales para calcular una transcripción cruda de la señal seguida del envío de la transcripción por medio de un modelo de lenguaje para corregir errores ortográficos y más.