Wolfram Language

Augmentation des données dans les encodeurs de réseau

Les encodeurs de réseau (NetEncoders) audio intégrés peuvent effectuer une variété d'augmentations de données en ligne avant d'utiliser les fonctions de calcul informatique. L'augmentation des données est utile pour augmenter la taille effective d'un jeu de données afin de rendre les modèles entraînés plus robustes et éviter un ajustement excessif ou pour ajouter une invariance à certains aspects spécifiques des données.

Créez un signal de test et représentez-le graphiquement.

Créez un encodeur qui découpe chaque exemple d'apprentissage en une quantité aléatoirement échantillonnée à partir d'une distribution uniforme entre ± . De cette façon, un modèle peut devenir plus invariant par rapport à la localité d'un événement audio.

Créez un encodeur qui ajuste aléatoirement l'amplitude de ses entrées en multipliant chaque exemple par un facteur constant échantillonné aléatoirement dans une distribution uniforme.

Créez un encodeur qui ajoute le bruit d'un modèle spécifié (ici une onde sinusoïdale) à chaque exemple, avec un niveau de bruit échantillonné sur une distribution uniforme entre 0 et 0,1.

Créez un encodeur qui combine chaque exemple d'apprentissage avec un autre signal, en utilisant un niveau de mélange échantillonné aléatoirement. Ceci est utile pour simuler les effets de différents environnements d'enregistrement, par exemple en ajoutant une réverbération.

Lors de l'utilisation des encodeurs "AudioMelSpectrogram" ou "AudioMFCC", l'espacement des centres des banques de filtres utilisés pour résumer le spectre de puissance peut être modifié aléatoirement, afin de simuler les effets des différentes longueurs de cordes vocales sur la production vocale chez l'humain. Créez un encodeur en utilisant l'augmentation "VTLP", dans lequel le facteur de distorsion est échantillonné aléatoirement sur une distribution uniforme entre 0,5 et 2.

Exemples connexes

de en es ja ko pt-br zh