마지막 컴퓨터, 음성인식
현대차가 차량 기능과 시스템을 음성으로 편리하게 제어할 수있는 차세대 '커넥티드카 인공지능 음성인식 기술'을 개발했다고 발표했습니다. 인공지능 기반의 이 기술은 음성인식을 통해 차량을 제어할 수 있고 내비게이션을 움직일 수 있으며 각종 차량 매뉴얼 정보 등을 검색할 수 있다고 합니다. 자동차 업계의 미래인 자율주행시대를 향한 초석이겠죠. 음성인식은 인공지능의 가장 중요한 기술이면서 많은 진전이 이뤄진 분야이기도 합니다. 이미 스마트 스피커와 챗봇 등으로 널리 쓰이고 있고 최근 들어 다자간 대화를 인식하고 감정이 포함된 음성을 알아차리는 등 고급 첨단 기술이 눈에 띄게 진전되고 있습니다. 모든 기기들과 음성으로 대화하고 작동시키는 시대도 멀지 않은 것 같습니다.

애플 시리가 음성인식 획기적 진전 이끌어
빅데이터와 알고리즘 기술이 혁신 유도

인공지능의 궁극적인 목표는 인간처럼 생각하고 대화하는 것입니다. 인간의 말을 알아듣고 말도 하는 AI를 구현하기 위해 과학자들은 수십 년간 분투해 왔습니다. 음성인식을 바꾼 건 AI 기술의 등장이었습니다. AI의 빅데이터 기술과 딥러닝의 알고리즘 기술은 음성인식 기술을 최대의 혁신으로 이끌었습니다. 이제 음성인식은 컴퓨터에 한정돼 있던 인공지능을 주방 자동차 침실 등 일상 영역으로 확대한 가장 소중한 수단입니다.

현대적 음성인식의 시작은 2011년 애플이 지능형 음성 비서서비스인 시리를 발표하면서 시작됐다고 해도 과언이 아닙니다. 시리는 규칙기반 대화처리라는 새로운 기술 장르를 개척했습니다. 이것이 AI의 기반이 된 건 물론입니다. 이후 2014년 일본 소프트뱅크는 음성대화기반 AI인 페퍼를 공개했고 2015년 아마존은 본격 지능형으로 불리는 음성인식 스피커 에코를 개발했습니다. 이런 기기들이 음성인식의 AI 생태계를 주도했습니다.
물론 음성인식 기술이 발달하게 된 가장 중요한 요인은 컴퓨터 기기의 향상과 네트워크의 속도입니다. 이전에는 음성 파형이 어느 음과 밀접하고 어떤 단어에 가까운지 찾아내는 패턴인식 연구를 지향했습니다. 하지만 인공지능과 딥러닝기술이 연구 방법 자체를 바꿨습니다. 모든 음성을 수치 데이터로 치환하고 그 음성의 특성이 어느 음소에 가까운지를 찾은 다음 그 결과치를 단어와 연결시키는 작업을 가능하게 했습니다. 거기에는 무궁무진한 단어들의 데이터베이스가 있었던 것이죠. 빅테크 기업들은 고객의 음성을 통해 데이터를 수집하고 음성인식 기기를 만들어 거기서 수익을 얻는 기반이 생겨나게 됐습니다.

스마트 스피커가 음성인식 대중화 기여
가전AI 챗봇 등에 주로 쓰여

음성인식은 각종 콜센터에서 실시간 ARS(자동응답시스템)에 많이 쓰이고 있습니다. 실시간 음성을 텍스트로 변환시키는 기술도 업무 시간을 절약시키고 생산성 향상과 업무 효율화를 꾀하는 면에서 수 년 전부터 많이 되고 있습니다.
최근 가장 인기를 끌고 있는 분야는 역시 인공지능 스마트 스피커 시장입니다. 글로벌 시장 조사업체 카날리스에 따르면 전세계 AI 스피커 설치대수는 1억대에 이를 것으로 전망하고 있습니다. 미국이 64%로 압도적인 1위를 차지하고 있죠. 시장조사기관인 마케터스미디어는 미국의 인공지능스피커 시장은 연평균 39.27%씩 성장해 2023년에는 78억달러 시장이 될 것이라고 예측했습니다. 현재 미국 전체 인구의 35%이상이 한 달에 적어도 한 번씩은 사용할 것이라는 얘기죠. 아마존의 알렉사가 가장 인기를 끌고 있고 구글의 어시스턴트, 애플의 시리순으로 나타나고 있습니다. 최근 들어선 알렉사가 구글 어시스턴트에게 지속해서 시장 점유율을 빼앗기고 있는 상황입니다. 국내에서도 약 300만 대의 AI스피커가 보급돼 세계 시장 점유율 5위권으로 부상하고 있습니다.
마지막 컴퓨터, 음성인식
음성인식을 통한 스마트가전 개발도 활발합니다. 이미 삼성전자 LG전자 등 국내 가전업체들은 스마트폰으로 가전제품을 제어하고 제품상태를 파악하면서 기능이나 고장여부를 물어보고 생활팁까지 얻을 수 있는 스마트가전을 내놓고 있습니다.

회의록 작성및 음성 자막처리기술 활발화
감정도 동시에 읽는 음성인식기술도 선보일 듯

AI 회의록 작성은 국회나 기업 등 회의가 많은 곳에서 이미 많이 쓰고 있습니다. 지금은 개인마다 음성인식을 통해 회의록을 작성하지만 AI가 갖는 다중지능 기술을 이용한 음성인식 기술 개발도 활발합니다. 최근 일본의 한 스타트업은 AI 음성인식을 사용해 회의에서 6명의 대화자를 식별해 이들의 각자 회의록을 작성할 수있는 새 서비스를 개발했다고 합니다. 이 사람들이 모두 같이 소리를 내더라도 각자의 음성을 구별할 수가 있는 것이죠. AI회의록은 개인별로 등록한 AI의 성문을 AI가 인식해 말하는 사람이 교체되면 자동으로 문자를 생성해 냅니다. 한국전자통신연구원도 다중 화자대화 음성 인식기를 개발 중이라고 합니다.
화자의 감정에 따라 다르게 발성할 수 있는 감정변환 음성 인식 및 합성기도 등장하고 있습니다. 지난해 엔비디아가 발표한 영상과 음성데이터를 활용한 복합 대화서비스 구축 지원 어플리케이션이 대표적이죠. 현재 이를 활용해 사람의 감정까지 다루는 서비스가 실현되고 있습니다. 소용량의 음성 코퍼스(언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아놓은 언어자료)를 활용해 사람의 음색 및 감정을 드러낼 수 있는 기술 개발도 진행되고 있습니다.
영상에서 음성을 자막으로 자동 변환할 수 있는 프로그램은 이미 유튜브와 네이버 당에서 보편화된 상황입니다. 이 자막을 자동으로 번역하는 프로그램도 곧 나올 예정입니다.

자율주행차는 음성인식의 결정판
음성인식으로 차내 모든 기능 조작

자동차는 음성인식을 사용하기 가장 까다로운 기기입니다. 시끄러운 환경에서도 음성은 인식할 수 있어야 하고 긴급한 상황에서 빨리 대처도 해야합니다. 음성인식을 통해 차내 오디오의 볼륨을 조절할 수 있고 실내온도도 조절할 수 있어야 합니다.
현대차가 이번에 개발한 음성인식 기술도 이런 목적입니다. 이번에 인공지능 플랫폼인 카카오i의 음성엔진을 적용하면 목적지의 맛집이나 관광 명소 등도 검색할 수 있게 됩니다. 음성으로 차량의 모든 기능을 조작할 수 있게 된다면 진정한 자율주행 시대를 맞게 됩니다. PC와 스마트폰을 잇는 최후의 컴퓨터는 궁극적으로 음성인식을 통한 자율주행 차량이 될지도 모르는 일입니다. ohchoon@hankyung.com