Wolfram Language

Classifique dígitos falados

A estrutura de rede neural na Wolfram Language traz ferramentas de treinamento de rede poderosas e fáceis de usar para objetos de Audio. Este exemplo treina uma rede para classificar dígitos falados.

Extraia o conjunto de dados Spoken Digit Commands do Wolfram Data Repository.

O conjunto de dados possui gravações dos dígitos de 0 a 9. É essencialmente um áudio equivalente ao conjunto de dados MNIST de dígitos.

Você pode começar decidindo como uma gravação será transformada em algo que uma rede neural pode usar. O codificador de rede "AudioMFCC" é usado onde o sinal é dividido em partições sobrepostas e algum processamento é aplicado a cada uma das partições para reduzir a dimensão enquanto preserva a informação que é importante para entender o sinal.

A rede será baseada em uma NetChain simples de GatedRecurrentLayers. Como você está interessado em uma única classificação, as camadas recorrentes são seguidas por um SequenceLastLayer e um classificador linear.

Você pode treinar a rede, deixando que NetTrain se preocupe com todos os hiperparâmetros.

Calcule o desempenho da rede usando NetMeasurements.

Ao remover as últimas camadas de classificação, você pode obter um extrator de propriedades para sinais de áudio.

Use FeatureSpacePlot para visualizar o conjunto de dados de teste incorporado em um espaço de recurso definido pela rede que você treinou.

mostre o input completo da Wolfram Language

Exemplos Relacionados

de en es fr ja ko zh