Treine um classificador de áudio: Novos Recursos do Wolfram Language 12

Treine um classificador de áudio

Este exemplo mostra como treinar uma rede neural simples para classificação de áudio e como usá-la para extrair propriedades de áudio.

Obtenha o conjunto de dados "Spoken Digit Commands" em ResourceData, que consiste em gravações feitas por diferentes pessoas que pronunciam dígitos de 0 a 9, junto com sua legenda e um ID do falante.

A codificação inicial para dados de áudio é mais complexa e mais crucial do que para dados de imagem. Vários algoritmos de codificação para áudio estão disponíveis, incluindo o "AudioMFCC", que produz uma representação compacta do sinal na forma de uma sequência de vetores.

Defina uma rede de classificação baseada em um conjunto de GatedRecurrentLayers. O NetBidirectionalOperator pode ser usado para tornar as camadas bidirecionais, lendo a sequência nas duas direções e concatenando os resultados. O estado final da recorrência é extraído por SequenceLastLayer.

Treine a rede usando NetTrain e mantendo 5% dos dados para validação.

Execute a rede final em um exemplo do conjunto de testes.

Calcule a precisão no conjunto de testes usando o NetMeasurements.

A rede pode ser usada como um extrator de alto nível removendo as últimas camadas de classificação.

O extrator pode ser usado para treinar um novo modelo muito rapidamente e com uma pequena quantidade de dados. Como exemplo, treine um novo classificador com Classify usando apenas 50 exemplos de treinamento.

Obtenha informações de desempenho sobre o classificador.

Wolfram Language™

Treine um classificador de áudio

Exemplos Relacionados