Wolfram Language

Extraction de caractéristiques à l'aide d'un réseau neuronal

Le réseau utilisé dans AudioIdentify peut être utilisé non seulement pour reconnaître les sons mais aussi pour extraire les caractéristiques d'un enregistrement. Cela permet d'intégrer n'importe quel signal dans un espace sémantiquement significatif, dans lequel les similitudes et les distances peuvent être calculées.

Procurez-vous le réseau utilisé dans AudioIdentify à partir de Wolfram Neural Net Repository.

Extrayez le cœur du réseau : le signal est divisé en segments de taille fixe, et ce réseau est appliqué au spectrogramme de Mel pour chacun de ces segments. Pour cela vous pouvez utiliser NetExtract.

Enlevez les dernières couches qui sont responsables de la tâche de classification et réinsérez le réseau qui en résulte dans la NetChain originale. Ce réseau produira un vecteur de taille fixe et sémantiquement significatif pour chaque entrée audio.

Visualisez les caractéristiques pour un seul enregistrement audio.

Utilisez le réseau comme extracteur de caractéristiques.

Utilisez un autre extracteur de caractéristiques pré-entraîné à partir du référentiel.

Exemples connexes

de en es ja pt-br zh