# 음성 인식 (Speech To Text)

#### 음성 인식의 정의와 기초 개념

음성 인식(Speech to Text, STT)은 인간의 음성을 받아들이고 이를 컴퓨터가 이해할 수 있는 텍스트로 변환하는 기술을 의미한다. 이 과정은 음성 신호의 수집, 전처리, 특징 추출, 모델링, 그리고 최종적으로 텍스트 변환의 단계로 나눌 수 있다. 음성 인식은 자연어 처리(NLP)와 밀접하게 연결되어 있으며, 언어 모델링, 음향 모델링, 그리고 발음 사전 등을 포함하는 복잡한 시스템으로 구성된다.

#### 음성 신호의 전처리와 특징 추출

음성 인식 시스템의 첫 번째 단계는 음성 신호의 전처리다. 이 과정에서는 음성 신호를 디지털 데이터로 변환하고, 노이즈 제거, 정규화 등의 작업을 수행한다. 전처리가 끝난 후에는 신호에서 의미 있는 특징을 추출하는 작업이 필요하다. 대표적인 특징으로는 멜 주파수 켑스트럼 계수(MFCC), 선형 예측 코딩(LPC), 그리고 멜-필터 뱅크 에너지가 있다. 이 특징들은 음성 신호의 주파수 성분을 분석하여 말소리의 특성을 반영하는 벡터를 생성한다.

#### 음향 모델링

음향 모델은 음성 신호의 특징과 음소(phoneme) 간의 확률적 관계를 모델링한다. 이 과정에서는 숨겨진 마코프 모델(HMM)이 전통적으로 많이 사용되었다. HMM은 시간에 따라 변하는 음성 신호의 통계적 특성을 모델링하는데 유리하다. 최근에는 딥러닝 기술의 발전으로 인해 심층 신경망(DNN), 합성곱 신경망(CNN), 장단기 메모리 네트워크(LSTM) 등 다양한 신경망 기반 모델들이 음향 모델링에 사용되고 있다. 이러한 모델들은 더 높은 정확도와 유연성을 제공하며, 특히 방대한 양의 학습 데이터를 통해 더 정확한 음향-음소 매핑을 가능하게 한다.

#### 언어 모델링과 발음 사전

언어 모델은 주어진 음향 모델의 출력이 올바른 문장으로 변환되도록 돕는 역할을 한다. 언어 모델은 단어들 간의 연관성이나 문법적 구조를 고려하여 텍스트 변환의 품질을 향상시킨다. 대표적인 언어 모델로는 n-그램 모델, 통계적 언어 모델(SLM), 그리고 최근에는 전이 학습을 기반으로 한 BERT, GPT 등의 사전 훈련된 언어 모델이 있다.

발음 사전은 각 단어를 음소의 시퀀스로 매핑하는 역할을 한다. 이는 음향 모델과 언어 모델을 연결하는 중요한 구성 요소로서, 발음 변이와 같은 음성의 다양성을 처리하는 데 중요한 역할을 한다.

#### 신경망 기반 음성 인식 모델

최근의 음성 인식 기술 발전은 심층 신경망의 도입과 함께 크게 진전되었다. CNN은 공간적 패턴 인식을 통해 음성 신호의 지역적인 특징을 잘 포착하며, RNN과 LSTM은 음성 신호의 시계열적 특성을 모델링하는 데 강점을 가진다. 트랜스포머 모델은 더 넓은 문맥을 고려할 수 있으며, 특히 자가-주의(attention) 메커니즘을 통해 음성 신호의 중요한 부분에 집중할 수 있다.

End-to-End(종단 간) 음성 인식 모델은 이러한 여러 단계를 통합하여 하나의 네트워크로 학습하는 방법론을 제안한다. 대표적인 예로는 CTC(Connectionist Temporal Classification) 기반의 모델과 Attention 기반의 Seq2Seq 모델이 있다. 이러한 모델들은 전통적인 음향 모델, 언어 모델, 발음 사전의 경계를 허물며, 데이터를 통한 통합적인 학습을 가능하게 한다.

#### 음성 인식 평가 방법

음성 인식 시스템의 성능을 평가하기 위해 다양한 지표가 사용된다. 가장 대표적인 지표는 단어 오류율(WER, Word Error Rate)로, 이는 인식된 텍스트와 실제 텍스트 간의 차이를 계산하는 방법이다. WER은 삽입, 삭제, 그리고 치환 오류의 합을 기준으로 계산되며, 값이 낮을수록 더 정확한 인식을 의미한다. 또한, 음성 인식 시스템의 실시간 처리가능성을 평가하기 위해 처리 속도나 지연 시간(latency) 역시 중요한 지표로 사용된다.

#### 인식률 향상을 위한 기술적 접근

음성 인식의 정확도를 높이기 위한 다양한 기술적 접근이 있다. 예를 들어, 잡음이 많은 환경에서 인식 성능을 높이기 위해 잡음에 강인한 특징 추출 기법이나 잡음 억제 알고리즘이 사용된다. 또한, 특정 도메인에 특화된 언어 모델이나 음향 모델을 훈련시켜 도메인 맞춤형 음성 인식 시스템을 개발할 수 있다.

다중 모달 인식(multimodal recognition)도 중요한 연구 분야로, 음성 인식 시스템이 비주얼 정보나 문맥 정보를 함께 활용하여 인식률을 향상시키는 방법을 탐구한다. 이는 특히 음성 외에 다른 입력 정보가 사용 가능한 환경에서 효과적이다.

***

관련 자료:

* Jurafsky, D., & Martin, J. H. (2008). *Speech and Language Processing*. Pearson Prentice Hall.
* Graves, A., Mohamed, A.-R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. *2013 IEEE International Conference on Acoustics, Speech and Signal Processing*.
* Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. *IEEE Signal Processing Magazine*.
* Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. *Advances in neural information processing systems*.