効率的な音声エンコーダ
大規模な訓練を実用的にするためには,データをネットワークに効率的に取り込む方法が必要である.音声NetEncoderは,このような場合に必要な効率のよい低レベル機能を提供する.
Wolfram Data Repositoryから利用可能なデータ集合を使ってエンコーダの効率を測定することができる.このデータ集合は比較的小さいもので(GoogleのSpeech Commandsデータ集合の部分集合) ,1万件の短い訓練例を含んでいる.
1つの例を選ぶ.
音声エンコーダは,正規化,リサンプリング,トリミング/充填等のオンラインでの前処理操作をサポートする.正規化を行う"Audio"エンコーダでかかる時間とAudioNormalizeの単純な呼出しでかかる時間を比較する.
データ集合全体について,"AudioSpectrogram"エンコーダでかかる時間と同等のシステム関数でかかる時間を比較する.
完全なWolfram言語入力を表示する
アウトオブコアのAudioオブジェクトの集合について,"AudioSpectrogram"エンコーダでかかる時間と同等のシステム関数でかかる時間を比較する。
完全なWolfram言語入力を表示する
インコアAudioオブジェクトのデータ集合をトップレベルのコードで符号化するのにかかる時間とデータサイズの関数としてのNetEncoderで符号化するのにかかる時間を比較する.
アウトオブコア音声ファイルをトップレベルのコード符号化するのにかかる時間とデータ集合サイズの関数としてのNetEncoderで符号化するのにかかる時間を比較する.