Aumento de datos en codificadores de red: Novedades en Wolfram Language 12

Aumento de datos en codificadores de red

Los NetEncoders de audio incorporado pueden realizar una variedad de aumentos de datos en línea antes de calcular los atributos. El aumento de datos es útil para incrementar el tamaño efectivo del conjunto de datos para hacer que los modelos entrenados sean más robustos contra el sobreajuste o para agregar invarianza a algunos aspectos específicos de los datos.

Cree una señal de prueba y grafíquela.

Cree un codificador que recorta cada ejemplo de entrenamiento por una cantidad muestreada de forma aleatoria a partir de una distribución uniforme entre ± . Esto puede ayudar a crear un modelo más invariante a la ubicación de un evento de audio.

Cree un codificador que ajusta de forma aleatoria la amplitud de sus entradas multiplicando cada ejemplo por un factor constante muestreado de forma aleatoria desde una distribución uniforme.

Cree un codificador que agregue ruido a un modelo específico (aquí una onda sinusoidal) a cada ejemplo, con un nivel de ruido muestreado a partir de una distribución uniforme entre 0 y 0.1.

Cree un codificador que involucre cada ejemplo de entrenamiento con otra señal, usando un nivel de mezcla muestreado de forma aleatoria. Esto es útil para simular los efectos de distintas grabaciones ambientales, ej. agregando reverberación.

Cuando se utiliza cualquiera de los codificadores "AudioMelSpectrogram" o "AudioMFCC", el espacio de los centros de los bancos de filtro utilizados para resumir el espectro de poder pueden ser deformados para simular el efecto de las longitudes de los distintos tractos vocales en la producción de sonidos humanos. Cree un codificador usando la aumentación "VTLP", donde el factor de deformación es muestreado de forma aleatoria a partir de una distribución uniforme entre .5 y 2.