Wolfram 语言

用神经网络检查语音

下面的例子用内置的 SpeechRecognize 函数识别语音。同时使用来自 Wolfram Neural Net Repository 的神经网络将信号转录为字符列表。

从合成的语音信号开始。

识别音频对象种的语音。

获取预先训练好的语音识别网络

在合成语音上运行神经网络。网络返回从录音中识别出的字符列表。

将字符连接起来,得到识别出的语音的初步版本。

使用 CTC 损失训练网络,将输入中的帧列表映射到字符列表,同时考虑到一个字母可以跨越多个帧的情况。

可视化 CTC 解码之前的网络输出,获取任意时间点上所有字母的概率。取每帧处概率最大的字符作为中间解码结果,用中间解码结果标记横轴。

相关范例

de en es fr ja pt-br