Skip to content

7. Recognition by Humans


Info

본 블로그는 자동 음성 인식(Automatic Speech Recognition)을 위한 기법들을 정리한 것이다. 다시 말해 컴퓨터로 하여금 사람 말 소리를 알아듣게 하려는 것인데, 그러면 당연히 사람의 음성 인식에 대해 알아볼 필요가 있다. 이 글에서는 사람의 말소리 인식 능력을 알아보고자 한다.


1. lexical access

사람은 음성을 단어 단위로 인식한다고 한다(lexical access). 말소리를 단어 단위로 인식하는 이러한 특성은 자동 음성 인식(Automatic Speech Recognition, ASR)에도 도입되었다. 인간의 단어 단위 말소리 인식은 구체적으로 다음 세 가지 특성으로 나눠 생각해볼 수 있다.


1] frequency: 사람은 빈도 높은 단어를 빠르게 인식한다. 고빈도 단어는 노이즈가 심한 환경에서도, 작은 말소리로도 정확하게 알아차릴 수 있다.

2] parallelism: 여러 단어(예컨대 두 명 이상의 화자가 발화)를 한 번에 알아들을 수 있다.

3] cue-based processing: 인간의 음성 인식은 다양한 단서(cue)에 기반한다. 다음 챕터에서 차례로 살펴본다.


2. cue-based processing

사람이 말소리를 알아듣기 위해 사용하는 단서 가운데 하나는 음성적 특징(acoustic cues)이다. 포만트(formant)나 성대진동 개시 시간(voice onset time) 등이 여기에 해당한다. 포만트란 스펙트럼에서 음향 에너지가 몰려 있는 봉우리를 가리킨다. 포만트가 어떤 주파수 영역대에서 형성되어 있는지에 따라 사람은 말소리를 다르게 인식한다. 성대진동 개시 시간은 무성폐쇄음(예: )의 개방 단계 후에 후행하는 모음을 위해 성대가 진동하는 시간 사이의 기간을 의미한다. 성대 진동 개시 시간은 말소리에서 유성자음(예: )과 무성자음을 식별하는 중요한 단서라고 한다.


어휘 그 자체도 말소리 인식에 중요한 단서가 될 수 있다(lexical cues). 이와 관련해 Warren이라는 학자는 1970년 음소 복원 현상(Phonemic restoration effect)라는 개념을 제시했다. 예컨대 단어를 이루는 음소(phoneme) 가운데 하나를 기침 소리로 대체하더라도 해당 음소를 들은 것으로 인식한다는 것이다. 이는 청자가 해당 어휘를 이미 알고 있는 덕분이다.


입모양 같은 시각적 단서(visual cues) 역시 상당한 영향을 미칠 수 있다. 발견자의 이름을 딴 맥거크 효과(McGurk effect)라는 것이 있는데, 입모양 또는 기타 다른 감각 정보의 영향으로 실제와는 다른 소리로 지각되는 현상을 가리킨다. 예컨대 ga라는 음절(syllable)을 발음하는 영상을 보여주면서도 ba라는 소리를 들려주면 da라고 알아듣는 식이다.


인간의 말소리 인식은 최근 들었던 단어에 영향을 받기도 한다. 의미론적 단어 연상(semantic word association)이나 반복 점화(repetition priming) 등이 바로 그것이다. 의미론적 단어 연상은 사람이 최근에 들었던 단어 가운데 의미상 유사한 단어를 더 빨리 알아듣는 현상을 의미한다. 반복 점화는 어떤 자극이 반복돼 해당 자극의 이후 경험이 뇌에서 빨리 처리되는 걸 가리킨다. 이전에 어떤 단어를 들었는데 그것이 반복된다면 더 빨리 알아채는 식이다. 이와 관련해서는 자연어 처리 연구자들이 cashe language model이라는 개념으로 모델링한 바 있다.


3. on-line processing

인간의 말소리 인식은 그때그때 실시간으로 진행된다(on-line processing). Marslen-Wilson의 1973년 연구에 따르면 사람은 다른 사람의 말을 듣고서 250ms 내에 바로 따로 말할 수 있는 것으로 나타났다. 다시 말해 단어 세그먼트(word segmentation), 구문 분석(parsing), 그리고 해당 문장에 대한 해석(interpretation)에 이르기까지 전 과정을 250ms 안에 처리한다는 이야기이다. 기계가 따라하기 어려울 정도로 대단한 능력이다.


References