识别语音: Wolfram 语言 12 的新功能

识别语音

自动语音识别 (ASR)，也称为语音到文本 (STT)，是自动识别录制的语音并将其转换为文本的过程。语音识别主要用于大型自动转录系统、虚拟和家庭助理、语音控制系统、听写系统、自动电话系统等。

版本 12 引入了 SpeechRecognize 来执行自动语音识别。

这是在网络上找到的语音信号。

可视化信号的频谱。

这是对该信号进行语音识别的结果。语音识别的过程是使用神经网络计算信号的原始转录，然后用语言模型对转录结果进行处理以纠正拼写错误等的过程。