WolframのWebサイトのコンテンツとインタラクトしたりフォームを送信したりするためには，JavaScriptを有効にしてください．方法

Wolfram言語™

音読される数字を分類する

Wolfram言語におけるニューラルネットのフレームワークは，Audioオブジェクトのための強力で使いやすいネットワークの訓練ツールを可能にする．この例では，音読された数字を分類するネットを訓練する．

Wolfram Data RepositoryからSpoken Digit Commandsデータ集合を取り出す．

このデータ集合は，0から9までの数字の音読の録音でできている．MNISTデータ集合の音声版のようなものである．

録音を，ニューラルネットワークで使えるものに変換する方法を決めるところから始める．"AudioMFCC"ネットエンコーダを使う．これは，信号を重複する部分に分割し，信号の理解に重要な情報を保持したままで，次元を削減するために各部分に何らかの処理が適用される．

このネットワークは，GatedRecurrentLayerの簡単なNetChainに基づいている．単独の分類にしか関心がないので，回帰層の後にSequenceLastLayerと線形分類子が続く．

NetTrainにハイパーパラメータすべてを任せてネットを訓練することができる．

NetMeasurementsを使ってネットの性能を計算する．

最後の分類層を削除することによって，音声信号に対する特徴抽出器を得ることができる．

訓練したネットによって定義される特徴空間に埋め込まれた検証データ集合をFeatureSpacePlotを使って可視化する．

完全なWolfram言語入力を表示する

関連する例

ニューラルネットを使って音声（スピーチ）を調べる

音声に含まれるキーワードを認識する

音声に対応する質問応答システムを構築する

ピッチを認識する

サウンドを識別する

動物の鳴き声を識別する

音声識別ネットを使って信号を調べる

音声認識機能を使って楽器を分類する

音声の特徴を自動的に抽出する

特定の特徴を抽出する

ニューラルネットを使って特徴を抽出する

音声特徴を使ってサウンドをクラスタ化する

音読される数字を分類する

音声データ集合を分類する

転移学習を使って音声データ集合を分類する

音事象の検出ネットを訓練する

音声のネットエンコーダ

ネットエンコーダのデータ拡張

効率的な音声エンコーダ

カスタムの音声エンコーダの構築