Wolfram 언어

음성 인식하기

자동 음성 인식(Automatic speech recognition, ASR)은 음성-텍스트 변환(speech-to-text, STT)으로도 알려진 음성 녹음을 자동으로 인식하여 텍스트로 변환하는 과정입니다. 음성 인식은 대규모 자동 전사 시스템, 가상 어시스턴트와 홈 어시스턴트, 음성 지원 제어 시스템, 구술 시스템, 자동 전화 시스템 등에서 자주 사용되고 있습니다.

버전 12에는 자동 음성 인식을 수행할 수 있는 SpeechRecognize가 도입되었습니다.

다음은 웹에 있던 음성 신호입니다.

이 신호의 스펙트럼을 시각화합니다.

다음은 이 신호의 음성 인식 결과입니다. 음성 인식의 과정은 신경망을 사용하여 신호의 원시 전사를 계산하고 다음으로 맞춤법 검사 등의 목적으로 전사한 것을 언어 모델을 통해 보내는 것입니다.

관련 예제

de en es fr ja pt-br zh