신경망을 사용한 음성 조사하기: Wolfram 언어 12의 신기능

신경망을 사용한 음성 조사하기

이 예는 내장된 SpeechRecognize 함수를 사용하여 음성을 인식합니다. 신호를 문자 목록으로 변환하는데 Wolfram Neural Net Repository의 신경망도 쓰입니다.

합성된 음성 신호에서 시작합니다.

음성 개체에 포함된 음성을 인식합니다.

이제, 훈련된 음성 인식 네트워크를 가져옵니다.

신경망을 다음의 합성 음성으로 평가합니다. 이 네트워크는 음성 녹음에서 인식된 문자 목록을 반환합니다.

문자를 연결하여 인식된 음성의 첫 번째 버전을 얻습니다.

이 네트워크는 한 글자가 여러 개의 프레임에 걸쳐 있는 경우도 고려하여 CTC 손실을 사용해 입력에서 프레임의 목록을 문자 목록에 매핑하도록 훈련되어 있습니다.

CTC의 복호화 직전에 이 네트워크의 출력을 시각화하고 임의의 시점에서 모든 문자의 확률을 얻을 수 있습니다. 아래의 축은 각 프레임에 확률이 최대의 문자를 할당한 중간 단계의 복호화에 라벨을 붙일 수 있습니다.