Skip to content

1. Acoustic Feature Extraction


이 챕터에서는 Mel-Frequency Cepstral Coefficients(MFCC)를 추출하는 방법을 살펴본다. MFCC는 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 것이다. MFCC는 기존 시스템은 물론 최근 엔드투엔드(end-to-end) 기반 모델에 이르기까지 음성 인식 시스템에 널리 쓰이는 피처인데, 뉴럴네트워크 기반 피처 추출 방식과는 달리 음성 도메인의 지식과 공식에 기반한 추출 방법이며 음성 입력이 주어지면 피처가 고정된(deterministic) 형태이다.


이 챕터의 핵심은 MFCCs인데, 이 아티클을 읽기 전에 그의 기반 지식이 되는 푸리에 변환(Fourier Transform) 항목을 먼저 읽어보시기를 권한다. 푸리에 변환은 시간과 주파수 도메인 관련 함수를 이어주는 수학적인 연산이다. 음성 신호의 스펙트럼 분석 등에 필수적이다.


References