网络编码器中的数据增强: Wolfram 语言 12 的新功能

网络编码器中的数据增强

内置音频 NetEncoder 可在计算功能之前在线对数据进行各种增强处理。数据增强对于增加数据集的有效大小非常有用，可以使训练过的模型对过度拟合更具鲁棒性，或者使数据在某些特定方面具有恒定性。

创建测试信号并绘制信号。

创建一个编码器，对每个训练样例进行修剪，修剪量从 ± 之间的均匀分布中随机采样。这有助于使模型对音频事件的局部性更稳定。

创建一个编码器，通过将每个样例乘以从均匀分布中随机采样的常数因子，随机调整输入信号的幅度。

创建一个编码器，将来自指定模型（此处为正弦波）的噪声添加到每个样例中，噪声级别从 0 到 0.1 之间的均匀分布中采样。

创建一个编码器，根据随机采样决定的混合程度将每个训练样例与另一个信号进行卷积。这对于模拟不同录制环境的效果非常有用，例如通过添加混响。

在使用 "AudioMelSpectrogram" 或 "AudioMFCC" 编码器时，可随机扭曲用于计算功率谱的滤波器组的中心的间隔，以模拟人类讲话时不同声道长度的影响。用 "VTLP" 增强创建编码器，其中扭曲因子从 .5 和 2 之间的均匀分布中随机采样。