Wolfram言語

ネットエンコーダのデータ拡張

組込みの音声NetEncoderは,特徴を計算する前にオンラインでさまざまなデータ拡張を実行することができる.データ拡張は,訓練されたモデルをフィットしすぎないようにより強固にする,あるいはデータのいくつかの特定の部分に不変性を加えるために,データ集合の有効なサイズを増やすのに便利である.

検証信号を作成してプロットする.

± の一様分布からランダムにサンプリングした量で各訓練例を切り取るエンコーダを作成する.これは,音事象の局所性に対するモデルの不変性を高めるのに役に立つ.

一様分布からランダムにサンプリングした定数係数を各例に掛けて入力の振幅をランダムに調整するエンコーダを作成する.

指定されたモデル(ここでは正弦波)からのノイズを各例に加えるエンコーダを作成する.ノイズレベルは0から0.1までの一様分布からサンプリングされたものを使用する.

ランダムにサンプリングした混合レベルを使って各訓練例を別の信号でたたみ込むエンコーダを作る.これは,例えば反響を加える等の,さまざまな録音環境の影響のシミュレーションに役に立つ.

"AudioMelSpectrogram"または"AudioMFCC"のどちらかのエンコーダを使う場合は,パワースペクトルの要約に使われるフィルタバンクの中心の間隔は,人間の発声における声道長の違いの影響のシミュレーションのためにランダムにワープさせることができる."VTLP"拡張を使ってエンコーダを作成する.ワープ係数は.5から2までの一様分布からランダムにサンプリングする.

関連する例

en