이젠 자동차와 대화하는 시대
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
오토 확대경
흔히 음성인식의 고전으로 아라비안나이트에 실린 ‘알리바바와 40인의 도적’ 이야기를 꼽는다. 도적들이 동굴 문을 열 때 큰 소리로 ‘열려라! 참깨(Open Sesame)’를 외쳐야 문이 열렸으니 비록 우화라도 언젠가는 음성 명령 시대를 기대했던 셈이다.
이 같은 인류의 꿈은 이탈리아 발명가인 안토니오 무치(1808~1889)가 자석식 전화기를 만들면서 현실화됐다. 음성을 전류로 바꿔 회선으로 전달하면 다시 진동판을 거쳐 소리로 재생되는 방식이다. 이후 1952년 미국의 벨 연구소는 컴퓨터가 음성 숫자를 알아듣는 ‘오드리(Audrey)’ 시스템 개발에 성공했다. 1960년에는 숫자 외에 일반 단어를 추가했다. 여기에는 스웨덴 왕립과학원 출신인 칼 건나 마이클 판트 교수(1919~2009)의 역할이 컸다. 판트 교수는 사람마다 다른 음성을 하나의 통일된 메시지로 인식시킬 방법에 몰두했다. ‘때엥~큐’와 ‘땅큐’를 인간은 모두 ‘감사함’으로 이해하지만 성대 주름 모양에 따라 억양(intonation)이나 강세(accent)가 다르다는 점에 착안해 이를 과학적으로 분석했다. 소리의 크기(에너지), 높이(주파수), 길이(지속 시간) 차이를 좁혀 인간 음성과 똑같은 운율을 만드는 연구였다.
음성의 연속 인식 분야를 본격적으로 개척한 것은 ‘인공지능(AI)의 개척자’로 불리는 컴퓨터 과학자 라즈 레디(1937~)다. 레디 교수는 컴퓨터에 두 가지 음성 명령을 동시에 내릴 수 있도록 만들어 체스 게임에 활용했다. 비슷한 시기에 소비에트연방은 200개의 단어로 작동 가능한 인식기를 개발했다. 전쟁 무기를 연구하는 미국 국방과학연구소(DARPA)는 음성 명령 시대를 훌쩍 앞당겼다. 1971년 컴퓨터가 최소 1000개의 단어를 인식하도록 하는 수준의 연구를 했는데, 그 결과 카네기멜론대가 자체 개발한 음성인식 시스템 ‘하피(Harpy)’가 1011개의 단어 인식에 성공했다. 그 사이 미국의 수학자 레오나드 바움은 특정 문자 출현 확률이 그 이전 문자에 큰 영향을 끼친다는 마르코프 체인 이론에 기반해 연구하기도 했다. 1980년대에는 IBM이 현대적 의미의 음성인식 기술을 개발했고, 이후 사용자와의 대화는 물론 감정을 읽는 수준까지 도달했다.
자동차로 음성 인식이 들어온 것은 1990년대 후반이다. 운전자가 편의 기능을 이용하기 위해 시선을 조작 장치로 옮기다가 사고가 발생하는 것을 방지하기 위한 목적이다. 하지만 당시에는 소비자들이 구입 후 별로 쓰지 않는 옵션으로 지목되는 수모(?)를 겪었다. 한국에서도 쌍용자동차 ‘체어맨’의 내비게이션에 장착됐지만 인식률이 떨어져 대부분 손으로 기능을 조작했다. 음성명령 자동차 시대가 본격적으로 열린 것은 2007년 포드가 ‘싱크(Sync)’ 기능을 개발하면서다. 꾸준히 성능을 개선한 덕분에 지금은 오히려 없을 때가 불편하다는 평가가 나온다.
최근 들어 자동차 음성 인식은 단순히 편의 기능 작동에 머무르지 않고 AI 스피커 기반의 외부 연결로 바뀌고 있다. 현대자동차와 카카오, 르노삼성자동차와 KT 등 정보기술(IT)과 자동차 기업의 연결이 대표적이다. 중국의 전기차업체 ‘니오’는 더 나아가 세계 최초로 자동차와 운전자가 자유롭게 대화하는 기능을 장착했다. 폭스바겐의 합작회사인 중국제일자동차그룹(FAW)은 자동차 안에 사람 형상의 홀로그램을 띄워 감정이입을 시도했다. 그야말로 음성이 지배하는 자동차시대로 전환되는 중인 것이다.
권용주 < 국민대 자동차운송디자인 겸임교수 >
이 같은 인류의 꿈은 이탈리아 발명가인 안토니오 무치(1808~1889)가 자석식 전화기를 만들면서 현실화됐다. 음성을 전류로 바꿔 회선으로 전달하면 다시 진동판을 거쳐 소리로 재생되는 방식이다. 이후 1952년 미국의 벨 연구소는 컴퓨터가 음성 숫자를 알아듣는 ‘오드리(Audrey)’ 시스템 개발에 성공했다. 1960년에는 숫자 외에 일반 단어를 추가했다. 여기에는 스웨덴 왕립과학원 출신인 칼 건나 마이클 판트 교수(1919~2009)의 역할이 컸다. 판트 교수는 사람마다 다른 음성을 하나의 통일된 메시지로 인식시킬 방법에 몰두했다. ‘때엥~큐’와 ‘땅큐’를 인간은 모두 ‘감사함’으로 이해하지만 성대 주름 모양에 따라 억양(intonation)이나 강세(accent)가 다르다는 점에 착안해 이를 과학적으로 분석했다. 소리의 크기(에너지), 높이(주파수), 길이(지속 시간) 차이를 좁혀 인간 음성과 똑같은 운율을 만드는 연구였다.
음성의 연속 인식 분야를 본격적으로 개척한 것은 ‘인공지능(AI)의 개척자’로 불리는 컴퓨터 과학자 라즈 레디(1937~)다. 레디 교수는 컴퓨터에 두 가지 음성 명령을 동시에 내릴 수 있도록 만들어 체스 게임에 활용했다. 비슷한 시기에 소비에트연방은 200개의 단어로 작동 가능한 인식기를 개발했다. 전쟁 무기를 연구하는 미국 국방과학연구소(DARPA)는 음성 명령 시대를 훌쩍 앞당겼다. 1971년 컴퓨터가 최소 1000개의 단어를 인식하도록 하는 수준의 연구를 했는데, 그 결과 카네기멜론대가 자체 개발한 음성인식 시스템 ‘하피(Harpy)’가 1011개의 단어 인식에 성공했다. 그 사이 미국의 수학자 레오나드 바움은 특정 문자 출현 확률이 그 이전 문자에 큰 영향을 끼친다는 마르코프 체인 이론에 기반해 연구하기도 했다. 1980년대에는 IBM이 현대적 의미의 음성인식 기술을 개발했고, 이후 사용자와의 대화는 물론 감정을 읽는 수준까지 도달했다.
자동차로 음성 인식이 들어온 것은 1990년대 후반이다. 운전자가 편의 기능을 이용하기 위해 시선을 조작 장치로 옮기다가 사고가 발생하는 것을 방지하기 위한 목적이다. 하지만 당시에는 소비자들이 구입 후 별로 쓰지 않는 옵션으로 지목되는 수모(?)를 겪었다. 한국에서도 쌍용자동차 ‘체어맨’의 내비게이션에 장착됐지만 인식률이 떨어져 대부분 손으로 기능을 조작했다. 음성명령 자동차 시대가 본격적으로 열린 것은 2007년 포드가 ‘싱크(Sync)’ 기능을 개발하면서다. 꾸준히 성능을 개선한 덕분에 지금은 오히려 없을 때가 불편하다는 평가가 나온다.
최근 들어 자동차 음성 인식은 단순히 편의 기능 작동에 머무르지 않고 AI 스피커 기반의 외부 연결로 바뀌고 있다. 현대자동차와 카카오, 르노삼성자동차와 KT 등 정보기술(IT)과 자동차 기업의 연결이 대표적이다. 중국의 전기차업체 ‘니오’는 더 나아가 세계 최초로 자동차와 운전자가 자유롭게 대화하는 기능을 장착했다. 폭스바겐의 합작회사인 중국제일자동차그룹(FAW)은 자동차 안에 사람 형상의 홀로그램을 띄워 감정이입을 시도했다. 그야말로 음성이 지배하는 자동차시대로 전환되는 중인 것이다.
권용주 < 국민대 자동차운송디자인 겸임교수 >