Habilite o JavaScript para interagir com oconteúdo e enviar formulários nos websites da Wolfram. Saiba como

Wolfram Language™

Classifique dígitos falados

A estrutura de rede neural na Wolfram Language traz ferramentas de treinamento de rede poderosas e fáceis de usar para objetos de Audio. Este exemplo treina uma rede para classificar dígitos falados.

Extraia o conjunto de dados Spoken Digit Commands do Wolfram Data Repository.

O conjunto de dados possui gravações dos dígitos de 0 a 9. É essencialmente um áudio equivalente ao conjunto de dados MNIST de dígitos.

Você pode começar decidindo como uma gravação será transformada em algo que uma rede neural pode usar. O codificador de rede "AudioMFCC" é usado onde o sinal é dividido em partições sobrepostas e algum processamento é aplicado a cada uma das partições para reduzir a dimensão enquanto preserva a informação que é importante para entender o sinal.

A rede será baseada em uma NetChain simples de GatedRecurrentLayers. Como você está interessado em uma única classificação, as camadas recorrentes são seguidas por um SequenceLastLayer e um classificador linear.

Você pode treinar a rede, deixando que NetTrain se preocupe com todos os hiperparâmetros.

Calcule o desempenho da rede usando NetMeasurements.

Ao remover as últimas camadas de classificação, você pode obter um extrator de propriedades para sinais de áudio.

Use FeatureSpacePlot para visualizar o conjunto de dados de teste incorporado em um espaço de recurso definido pela rede que você treinou.

mostre o input completo da Wolfram Language

Exemplos Relacionados

Inspecione fala usando uma rede neural

Reconheça palavras-chave em um discurso

Crie um sistema de perguntas e respostas acionado por áudio

Reconhecimento de som

Identifique sons

Identifique sons de animais

Inspecione um sinal usando a rede de identificação de áudio

Classifique instrumentos usando recursos de identificação de áudio

Extraia propriedades de áudio automaticamente

Extraia uma propriedade específica

Extraia propriedades usando uma rede neural

Agrupe sons usando propriedades de áudios

Classifique dígitos falados

Classifique um conjunto de dados de áudio

Classifique um conjunto de dados de áudio usando aprendizagem de transferência

Treine uma rede para detectar eventos sonoros

Codificadores de rede para áudio

Ampliação da base de dados em codificadores de rede

Codificadores de áudio eficientes

Construa um codificador de áudio personalizado