음성 인식하기
자동 음성 인식(Automatic speech recognition, ASR)은 음성-텍스트 변환(speech-to-text, STT)으로도 알려진 음성 녹음을 자동으로 인식하여 텍스트로 변환하는 과정입니다. 음성 인식은 대규모 자동 전사 시스템, 가상 어시스턴트와 홈 어시스턴트, 음성 지원 제어 시스템, 구술 시스템, 자동 전화 시스템 등에서 자주 사용되고 있습니다.
버전 12에는 자동 음성 인식을 수행할 수 있는 SpeechRecognize가 도입되었습니다.
다음은 웹에 있던 음성 신호입니다.
이 신호의 스펙트럼을 시각화합니다.
다음은 이 신호의 음성 인식 결과입니다. 음성 인식의 과정은 신경망을 사용하여 신호의 원시 전사를 계산하고 다음으로 맞춤법 검사 등의 목적으로 전사한 것을 언어 모델을 통해 보내는 것입니다.