用神经网络检查语音
下面的例子用内置的 SpeechRecognize 函数识别语音。同时使用来自 Wolfram Neural Net Repository 的神经网络将信号转录为字符列表。
从合成的语音信号开始。
识别音频对象种的语音。
获取预先训练好的语音识别网络。
在合成语音上运行神经网络。网络返回从录音中识别出的字符列表。
将字符连接起来,得到识别出的语音的初步版本。
使用 CTC 损失训练网络,将输入中的帧列表映射到字符列表,同时考虑到一个字母可以跨越多个帧的情况。
可视化 CTC 解码之前的网络输出,获取任意时间点上所有字母的概率。取每帧处概率最大的字符作为中间解码结果,用中间解码结果标记横轴。