Wolfram言語

効率的な音声エンコーダ

大規模な訓練を実用的にするためには,データをネットワークに効率的に取り込む方法が必要である.音声NetEncoderは,このような場合に必要な効率のよい低レベル機能を提供する.

Wolfram Data Repositoryから利用可能なデータ集合を使ってエンコーダの効率を測定することができる.このデータ集合は比較的小さいもので(GoogleのSpeech Commandsデータ集合の部分集合) ,1万件の短い訓練例を含んでいる.

1つの例を選ぶ.

音声エンコーダは,正規化,リサンプリング,トリミング/充填等のオンラインでの前処理操作をサポートする.正規化を行う"Audio"エンコーダでかかる時間とAudioNormalizeの単純な呼出しでかかる時間を比較する.

データ集合全体について,"AudioSpectrogram"エンコーダでかかる時間と同等のシステム関数でかかる時間を比較する.

完全なWolfram言語入力を表示する

アウトオブコアのAudioオブジェクトの集合について,"AudioSpectrogram"エンコーダでかかる時間と同等のシステム関数でかかる時間を比較する。

完全なWolfram言語入力を表示する

インコアAudioオブジェクトのデータ集合をトップレベルのコードで符号化するのにかかる時間とデータサイズの関数としてのNetEncoderで符号化するのにかかる時間を比較する.

アウトオブコア音声ファイルをトップレベルのコード符号化するのにかかる時間とデータ集合サイズの関数としてのNetEncoderで符号化するのにかかる時間を比較する.

関連する例

de en es fr ko pt-br zh