Reconheça palavras-chave em um discurso: Novos Recursos do Wolfram Language 12

Reconheça palavras-chave em um discurso

Além de uma simples transcrição de fala, calcular a probabilidade de que uma alteração de código contenha um conjunto restrito de palavras estabelece alguma resistência aos erros ortográficos que a rede pode cometer. E mais, localizar onde em uma gravação uma palavra específica é falada pode ser muito útil.

Use a rede de reconhecimento de fala pré-treinada do Wolfram Neural Net Repository para calcular a probabilidade de que uma alteração de código contenha uma palavra específica. Veja os detalhes desta rede aqui.

Comece baixando e examinando uma amostra dos dados de treinamento do "Spoken Digit Commands" do Wolfram Data Repository.

Calcule as probabilidades de uma única letra durante todo o tempo usando a rede.

Você pode usar CTCLossLayer para calcular a probabilidade negativa logarítmica de uma seqüência específica de caracteres, dado o resultado da rede.

Calcule as probabilidades logarítmicas da transcrição sendo um dos dígitos entre 0 e 9.

Você pode fazer a mesma operação em uma amostra de áudio mais longa usando uma janela deslizante.

Calcule as probabilidades de qualquer letra única durante todo o tempo usando a rede.

Escolha os candidatos de transcrição.

Você pode particionar as probabilidades calculadas pela rede para inspecionar subconjuntos do sinal. A perda de CTC pode ser calculada em relação a todas as escolhas para cada partição. Isso produzirá a probabilidade logarítmica de uma escolha específica, sendo a transcrição da partição específica. BlockMap é usado para aplicar a função às partições do sinal de áudio.