Ampliação da base de dados em codificadores de rede: Novos Recursos do Wolfram Language 12

Ampliação da base de dados em codificadores de rede

Os NetEncoders de áudio integrados podem executar uma variedade de aprimoramentos de dados on-line antes de executar funções computacionais. O aumento de dados é útil para aumentar o tamanho efetivo de um conjunto de dados para tornar os modelos treinados mais robustos contra sobreajuste ou para adicionar invariância a alguns aspectos específicos dos dados.

Crie um sinal de teste e faça um gráfico.

Crie um codificador que reduza cada exemplo de treinamento em uma quantidade aleatoriamente amostrada de uma distribuição uniforme entre ± . Isso pode ajudar a tornar um modelo mais invariável para a localidade de um evento de áudio.

Crie um codificador que ajuste aleatoriamente a amplitude de suas entradas, multiplicando cada exemplo por um fator constante amostrado aleatoriamente de uma distribuição uniforme.

Crie um codificador que adicione ruído de um modelo especificado (aqui uma onda senoidal) a cada exemplo, com um nível de ruído amostrado de uma distribuição uniforme entre 0 e 0,1.

Crie um codificador que faça a convolução de cada exemplo de treinamento com outro sinal, usando um nível de mistura amostrado aleatoriamente. Isto é útil para simular os efeitos de diferentes ambientes de gravação, por exemplo adicionando reverberação.

Ao usar um dos codificadores "AudioMelSpectrogram" ou "AudioMFCC", o espaçamento dos centros dos bancos de filtros usados para resumir o espectro de potência pode ser aleatoriamente deformado para simular o efeito de diferentes comprimentos do trato vocal na produção de fala humana. Crie um codificador usando o aumento "VTLP", onde o fator de deformação é amostrado aleatoriamente a partir de uma distribuição uniforme entre .5 e 2.