Wolfram言語

音声のネットエンコーダ

音声特有のさまざまなNetEncoderオブジェクトが,Audioオブジェクトとニューラルネットフレームワークを確実に統合するために利用できるようになった.エンコーダは,データをニューラルネットに注入する簡単な方法を提供するので,このフレームワークの中心に位置する.

鳥の鳴き声の録音で計算された,各エンコーダからの特徴を調べる.

"Audio"ネットエンコーダは,リサンプリングとダウンミキシングのステップ後に波形を返すだけである.

完全なWolfram言語入力を表示する

"AudioSTFT"ネットエンコーダは入力信号の分割部分のフーリエ(Fourier)変換を計算する.この特徴には時間と周波数の両方の情報が含まれている.

完全なWolfram言語入力を表示する

"AudioSpectrogram"ネットエンコーダは,入力信号の分割部分について計算されたパワースペクトルを返す.

完全なWolfram言語入力を表示する

"AudioMelSpectrogram"ネットエンコーダは,人間のピッチ知覚を模倣するために周波数のビンが非線形間隔になるようなフィルタがかけられたスペクトログラムを返す.

完全なWolfram言語入力を表示する

"AudioMFCC"ネットエンコーダは,信号に含まれる情報のほとんどを保持しながら,メルスペクトログラムに対してさらに次元削減を行う.

完全なWolfram言語入力を表示する

関連する例

en