Classez les chiffres parlés
Le cadre de réseau neuronal dans Wolfram Language permet d'utiliser des outils d'apprentissage réseau puissants et conviviaux pour les objets Audio. Cet exemple entraîne un réseau à classer les chiffres parlés.
Récupérez les jeux de données des commandes vocales (Spoken Digit Commands) à partir de Wolfram Data Repository.
Le jeu de données comprend des enregistrements des chiffres de 0 à 9. Il s'agit essentiellement d'un équivalent audio du jeu de données numériques du MNIST.
Vous pouvez tout d'abord décider de la façon dont un enregistrement sera transformé en un élément qu'un réseau neuronal pourra utiliser. Pour cela, on utilise l'encodeur réseau "AudioMFCC" qui divise le signal en partitions se chevauchant et applique un traitement à chacune d'elles pour réduire la dimension et préserver les informations importantes pour la compréhension du signal.
Le réseau sera basé sur une simple NetChain de GatedRecurrentLayers. Puisqu'une seule classification vous intéresse, les couches récurrentes sont suivies d'un SequenceLastLayer et d'un classifieur linéaire.
Vous pouvez entraîner le réseau en laissant NetTrain s'occuper de tous les hyper-paramètres.
Calculez la performance du réseau en utilisant NetMeasurements.
En supprimant les dernières couches de classification, vous pouvez obtenir un extracteur de caractéristiques pour les signaux audio.
Utilisez FeatureSpacePlot pour visualiser le jeu de données de test intégré dans un espace de caractéristiques défini par le réseau que vous avez entraîné.