Treine um classificador de áudio
Este exemplo mostra como treinar uma rede neural simples para classificação de áudio e como usá-la para extrair propriedades de áudio.
Obtenha o conjunto de dados "Spoken Digit Commands" em ResourceData, que consiste em gravações feitas por diferentes pessoas que pronunciam dígitos de 0 a 9, junto com sua legenda e um ID do falante.
A codificação inicial para dados de áudio é mais complexa e mais crucial do que para dados de imagem. Vários algoritmos de codificação para áudio estão disponíveis, incluindo o "AudioMFCC", que produz uma representação compacta do sinal na forma de uma sequência de vetores.
Defina uma rede de classificação baseada em um conjunto de GatedRecurrentLayers. O NetBidirectionalOperator pode ser usado para tornar as camadas bidirecionais, lendo a sequência nas duas direções e concatenando os resultados. O estado final da recorrência é extraído por SequenceLastLayer.
Treine a rede usando NetTrain e mantendo 5% dos dados para validação.
Execute a rede final em um exemplo do conjunto de testes.
Calcule a precisão no conjunto de testes usando o NetMeasurements.
A rede pode ser usada como um extrator de alto nível removendo as últimas camadas de classificação.
O extrator pode ser usado para treinar um novo modelo muito rapidamente e com uma pequena quantidade de dados. Como exemplo, treine um novo classificador com Classify usando apenas 50 exemplos de treinamento.
Obtenha informações de desempenho sobre o classificador.