Entrenamiento de una red de detección de eventos de sonido
En algunos casos puede que desee entrenar una red que localice eventos de sonidos en una grabación, pero solo tiene acceso a datos "etiquetados de forma débil", donde las etiquetas solo especifican si cierto evento está presente en la grabación, pero no donde. A pesar de lo limitado de los datos, es posible obtener buenos resultados en la ubicación de eventos de sonidos por medio del entrenamiento de datos etiquetados de forma débil.
Recupere el conjunto de datos Audio Cats and Dogs del Repositorio de datos Wolfram.
El conjunto de datos está compuesto de grabaciones anotadas de gatos y perros.
La duración de las grabaciones varían entre 1 y 18 segundos.
Usted puede manipular el conjunto de datos en un formato amigable para entrenar una red neuronal y dividirla en un subconjunto de entrenamiento y prueba.
Inspeccione la duración acumulada de los datos de entrenamiento.
Y los datos de prueba.
El codificador "AudioMelSpectrogram" se utiliza para alimentar la señal de audio en la red, Dado que la cantidad de datos es relativamente pequeña, usted puede realizar aumentos de datos para hacer que el entrenamiento sea más efectivo.
La red misma se basa en una pila de capas recurrentes (GatedRecurrentLayer) y una AggregationLayer para llevar el resultado a la dimensión temporal. Esto permite que la red genere un resultado de clasificación sencillo en lugar de una secuencia.
Comience el entrenamiento.
Extraiga la red entrenada y remplace el codificador con uno sin aumentos.
Produzca un reporte de su rendimiento en el conjunto de prueba.
Al eliminar AggregationLayer y agregar SoftmaxLayer a la red cortada, usted obtiene una red que regresa una secuencia de probabilidades de clase en lugar de un resultado de una sola clasificación.
Defina una función que toma la salida de la red y regresa una asociación de TimeSeries con las probabilidades para las posibles etiquetas.
Ahora usted puede probar esta red resuelta en el tiempo. Construya una señal agrupando muestras de gatos y perros del conjunto de datos de prueba.
Grafique las series temporales de las probabilidades calculadas por la red.
Grafique los resultados de red sobre la señal de prueba.
Defina una función para calcular los intervalos donde la probabilidad de una clase es mayor que un umbral y otra para calcular los rectángulos correspondientes a dichos intervalos.
Calcule los intervalos.
Grafique los intervalos sobre la forma de onda de la grabación.