Wolfram Language

Encodeurs de réseau pour l'audio

Une variété d'objets NetEncoder spécifiques à l'audio sont maintenant disponibles pour aider à intégrer solidement l'objet Audio dans le cadre du réseau neuronal. Les encodeurs sont un élément clé de la structure, car ils fournissent un moyen facile d'injecter des données dans un réseau neuronal.

Inspectez les caractéristiques de chaque encodeur calculées sur l'enregistrement d'un oiseau.

L'encodeur de réseau "Audio" renvoie simplement la forme d'onde après une étape de ré-échantillonnage et de mixage réducteur.

Montrer l'entrée complète de Wolfram Language

L'encodeur de réseau "AudioSTFT" calcule la transformation de Fourier sur les partitions du signal d'entrée. Cette fonction contient à la fois des informations de temps et de fréquence.

Montrer l'entrée complète de Wolfram Language

L'encodeur de réseau "AudioSpectrogram" renvoie le spectre de puissance calculé sur les partitions du signal d'entrée.

Montrer l'entrée complète de Wolfram Language

L'encodeur de réseau "AudioMelSpectrogram" renvoie un spectrogramme qui a été filtré de manière à ce que les intervalles de fréquence soient non linéaires pour imiter la perception de la hauteur tonale chez les humains.

Montrer l'entrée complète de Wolfram Language

L'encodeur de réseau "AudioMFCC" effectue une réduction dimensionnelle supplémentaire sur le spectrogramme de Mel, tout en préservant la majeure partie des informations contenues dans le signal.

Montrer l'entrée complète de Wolfram Language

Exemples connexes

de en es ja ko pt-br zh