잡음이 뒤섞인 시끄러운 상황에서도 사람입술모양을 보고 말을 잘 알아
들을 수 있는 컴퓨터가 개발됐다.
미 존스홉킨스대 벤 유하스씨는 음성인식시스템에 입술판독장치를
집어넣어 소 음 속에서도 사람의 음성을 이해할 수 있는 컴퓨터를
개발했다고 과학지 ''디스커버 리'' 8월호가 보도했다.
*** 기존시스팀은 잡음에 취약 ***
지금까지 과학자들은 사람의 말을 알아듣는 음성인식컴퓨터를 만들기
위해 계속 노력해왔지만 여러가지 장애요인에 걸려 빠르게 진척시키지
못했다.
현재 음성인식시스템은 98%의 높은 정확도로 1만단어까지 알아들을 수
있는 수 준에 와있지만 주위에 다른 소음이 없는 상태에서 명확하고
천천히 말해야만 이를 알아들을 수 있을 뿐이다.
주위에 여러가지 잡음이 섞여있을 경우 음성인식시스템은 대부분 쉽게
혼동을 일으켜 사람의 말을 이해하지 못하는 형편이다.
컴퓨터공학자인 벤 유하스씨는 컴퓨터가 보다 복잡한 현실세계를
이해할 수 있 는 새 방법론을 고안하게 됐다.
그는 "주위 소음은 컴퓨터뿐만 아니라 사람들에게도 혼란을 주기는
마찬가지지 만 우리는 시끄러운 파티에서도 어떤 사람이 무엇을 말하고
있는지 이해한다"고 지 적하고 "무의식중 터득한 요령에 따라 우리는
사람의 말을 들으면서 동시에 사람의 입술을 읽게 되는 것이다"고
설명했다.
이러한 원리에 따라 그는 입술을 읽는 컴퓨터신경망을 보유한
음성인식시스템을 만든 것이다.
*** 모음 인식능력 기존 시스팀의 5배 달해 ***
말하자면 모음을 말하는 사람의 무성비디오사진을 보면서 입의 형태 및
입술, 이빨, 혀의 위치를 분석한 다음 어떤 소리가 어떤 상태에서 나오는지,
나오는지, 어떤 모음이 말해지고 있는지 추정하는 일종의 훈련학습과정이다.
이러한 과정을 통해 이 시스템의 신경망은 입술모양만 가지고 무슨
말을 하는지 , 어떤 모음이 발음되는지 보다 잘 알아맞추게 된다.
유하스씨는 "5백회의 연습을 했더니 컴퓨터가 사진만 보고 음성을
판단할 수 있 는 능력이 사람만큼 능숙해졌다"고 말했다.
그가 여러 잡음과 뒤섞인 음성신호와 함께 말하는 사람의 비디오사진을
가지고 시험해본 결과 시스템의 입술판독신경망이 사진을 통해
음성주파수를 알아냈고 청각 처리장치가 이 주파수의 음성만을 잡아 원하는
음성을 인식했다.
특히 주위 소음이 심하면 심할수록 이 음성인식시스템은 입술판독신경
망의 판 단에 많이 의존했다.
이 새로운 시스템은 음성인식능력을 놀랄만큼 개선시켜 매우 시끄러운
상황에서 기존 시스템보다 5배나 정확하게 모음을 알아맞혔다.
그러나 유하스씨가 개발한 시스템의 입술판독장치가 사람의 말을
능숙하게 읽어 내려면 아직도 해결해야할 일이 많다.
그는 "청각장애인 사람의 경우 어떤 말을 듣지 못했다해도 여러가지
상황을 보 아 무슨 말을 했는지 파악할 수 있지만 컴퓨터는 아직 그렇지
못하다"고 말했다.