[이병태의 '경영과 기술'] '바벨탑'이 사라지는 세상이 온다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
(15) 음성인식 기술과 미래
인공지능(AI)에 대한 우리의 기대는 인간과 비슷한 또는 인간을 뛰어넘는 초(超)지능인 경우가 많다. 그것은 우리가 TV나 영화, 만화 등에서 그런 놀라운 미래를 많이 접한 이유도 있고, ‘알파고’와 이세돌 9단의 대결 등 홍보성 행사가 이 분야 연구자들의 낙관론과 결부된 탓도 크다.
하지만 인간 두뇌의 놀랍고도 많은 기능은 아직 미지의 세계에 가깝다. 하워드 가드너 미국 하버드대 교수가 말한 ‘9개의 다중지능’은 물론 인간 뇌의 저장용량마저 우리의 상상을 초월한다. 인간 두뇌의 기억용량은 2.5페타바이트(PB)로 추정된다. 1PB는 콤팩트디스크(CD) 150만 장, 즉 풀HD 동영상을 24시간 중단 없이 3.4년간 찍어서 보관할 수 있는 용량이다. 우리는 이의 2.5배인 기억용량이 뇌 속에서 어떻게 활용되는지 모르는 상태다.
반면 오감에 의한 인지능력을 인공지능이 흉내내도록 하는 것은 커다란 진전을 이루고 있다. 그중 하나가 컴퓨터 비전 분야로, 우리의 눈을 대신하는 것이다. 컴퓨터 비전이 인간의 눈에 의한 사물 판단 능력을 초월한 것은 2015년이고 이때부터 우리 생활에 급속하게 활용돼 왔다. 카메라가 자동차 번호판 인식을 정확하게 하면서부터 주차 요원과 종이 주차권이 사라지고 있는 것은 이런 기술의 결과다.
귀의 능력을 대체하는 AI
최근 들어 인간의 인지능력 중 또 다른 하나가 인공지능에 추격당하고 있다. 바로 인간의 귀다. 음성인식은 2010년 2월 애플이 아이폰에 시리를 탑재하면서 세상을 놀라게 했다. 그해 6월 애플은 이 기술을 페이스 타임이란 전화 앱(응용프로그램)에 넣었고 소음이 많은 환경에서 통화할 때 소음과 통화 내용을 분리하는 데 적용해 응용 가능성을 확대했다. 이후 마이크로소프트가 2013년 윈도10의 음성 비서 코타나(Cortana)를 출시했고, 2014년 도미노피자가 음성인식 기반의 모바일 피자 주문 앱을 내놓았으며 2014년 말 아마존이 스마트 스피커 에코를 출시, 본격적인 스마트 스피커 시대를 열었다.
이 같은 음성인식 기술은 영국 옥스퍼드대가 인공지능에 의한 자동화의 위협에 가장 크게 노출된 직업으로 콜센터의 텔레마케터를 꼽게 만들었다. 수년 내 텔레마케터의 자동화 확률은 99%로 평가됐고 음성인식 기술과 챗봇은 이 예측을 현실화하고 있다. 2016년 구글은 구글폰의 음성인식 기능을 크게 보강했고 스마트 스피커 시장에 ‘구글홈’을 출시했으며 아마존의 음성 비서 ‘알렉사’는 2016년 최고의 히트 상품으로 부상했다. 2017년 삼성전자의 ‘빅스비’ 출현으로 스마트폰 회사는 물론 통신사, 전자상거래 및 포털회사들이 앞다퉈 이 분야의 제품과 서비스를 내놓고 있다. 스마트 스피커 판매량은 2017년 두 배 이상 성장하는 새로운 산업이 되고 있다.
이런 배경에는 음성인식 인공지능 분야의 괄목할 만한 성과가 있다. 구글의 음성인식 정확도가 인간이 어려움 없이 대화할 수 있는 95%에 도달했기 때문이다. 2013년만 해도 음성인식률은 80%에 미치지 못해 시리에서 시작된 열풍이 거품으로 치부되기도 했다. 이제는 날씨, 뉴스 등의 정보를 음성으로 검색함은 물론 음악을 요청하고, 배달음식을 주문하는가 하면, 송금을 하고 우버 차량을 호출하고, 내비게이션을 작동하기도 한다. 그리고 스마트 홈의 기기들을 음성으로 작동하는 등 수많은 응용 분야가 출현하고 있다. 아마존의 스마트 스피커를 구입한 고객의 20~30%는 이미 음성으로 상품을 주문하고 있는데 1인당 매출액이 10% 정도 증가한 것으로 조사되고 있다. 이 분야는 2023년까지 연평균 20% 이상 성장할 것으로 예상된다.
95%에 이르는 음성인식률
음성인식은 키보드를 치는 것에 비해 훨씬 쉽고 편리하다. 인간은 영어 단어를 기준으로 분당 125~175단어를 말할 수 있는데 키보드를 치는 속도는 40단어에 불과하다. 또 키보드에서 손이 자유로워지면서 다른 일을 동시에 수행할 수 있는 이점도 있다. 특히 운전할 때와 같은 상황에서는 안전을 도모할 수 있다.
이렇듯 컴퓨터 비전과 음성인식은 인간의 귀와 눈을 인공지능이 대체하고 보조할 수 있게 하고 있다. 이제 쓸 만한 수준의 단계를 뛰어넘은 인공지능은 전자상거래도 혁명적으로 바꾸고 있다. 키워드나 전자상거래 사업자가 미리 설정한 품목의 카탈로그 방식이 아니라 매장에서 점원에게 상품을 요청하듯 말하면 알아듣는 사이트가 돼가고 있다. 산업 현장의 안전과 효율을 높이는 것은 물론 모든 기계와 전자상거래 사이트를 음성인식이 가능하도록 재편할 것을 요구하고 있다. 각 언어의 음성인식률이 높아지면 자동번역 기능 또한 크게 향상될 것으로 기대할 수 있다. 만물과 대화하고 바벨탑이 사라지는 새로운 세상이 음성인식으로 열리고 있다.
KAIST 경영대 교수
하지만 인간 두뇌의 놀랍고도 많은 기능은 아직 미지의 세계에 가깝다. 하워드 가드너 미국 하버드대 교수가 말한 ‘9개의 다중지능’은 물론 인간 뇌의 저장용량마저 우리의 상상을 초월한다. 인간 두뇌의 기억용량은 2.5페타바이트(PB)로 추정된다. 1PB는 콤팩트디스크(CD) 150만 장, 즉 풀HD 동영상을 24시간 중단 없이 3.4년간 찍어서 보관할 수 있는 용량이다. 우리는 이의 2.5배인 기억용량이 뇌 속에서 어떻게 활용되는지 모르는 상태다.
반면 오감에 의한 인지능력을 인공지능이 흉내내도록 하는 것은 커다란 진전을 이루고 있다. 그중 하나가 컴퓨터 비전 분야로, 우리의 눈을 대신하는 것이다. 컴퓨터 비전이 인간의 눈에 의한 사물 판단 능력을 초월한 것은 2015년이고 이때부터 우리 생활에 급속하게 활용돼 왔다. 카메라가 자동차 번호판 인식을 정확하게 하면서부터 주차 요원과 종이 주차권이 사라지고 있는 것은 이런 기술의 결과다.
귀의 능력을 대체하는 AI
최근 들어 인간의 인지능력 중 또 다른 하나가 인공지능에 추격당하고 있다. 바로 인간의 귀다. 음성인식은 2010년 2월 애플이 아이폰에 시리를 탑재하면서 세상을 놀라게 했다. 그해 6월 애플은 이 기술을 페이스 타임이란 전화 앱(응용프로그램)에 넣었고 소음이 많은 환경에서 통화할 때 소음과 통화 내용을 분리하는 데 적용해 응용 가능성을 확대했다. 이후 마이크로소프트가 2013년 윈도10의 음성 비서 코타나(Cortana)를 출시했고, 2014년 도미노피자가 음성인식 기반의 모바일 피자 주문 앱을 내놓았으며 2014년 말 아마존이 스마트 스피커 에코를 출시, 본격적인 스마트 스피커 시대를 열었다.
이 같은 음성인식 기술은 영국 옥스퍼드대가 인공지능에 의한 자동화의 위협에 가장 크게 노출된 직업으로 콜센터의 텔레마케터를 꼽게 만들었다. 수년 내 텔레마케터의 자동화 확률은 99%로 평가됐고 음성인식 기술과 챗봇은 이 예측을 현실화하고 있다. 2016년 구글은 구글폰의 음성인식 기능을 크게 보강했고 스마트 스피커 시장에 ‘구글홈’을 출시했으며 아마존의 음성 비서 ‘알렉사’는 2016년 최고의 히트 상품으로 부상했다. 2017년 삼성전자의 ‘빅스비’ 출현으로 스마트폰 회사는 물론 통신사, 전자상거래 및 포털회사들이 앞다퉈 이 분야의 제품과 서비스를 내놓고 있다. 스마트 스피커 판매량은 2017년 두 배 이상 성장하는 새로운 산업이 되고 있다.
이런 배경에는 음성인식 인공지능 분야의 괄목할 만한 성과가 있다. 구글의 음성인식 정확도가 인간이 어려움 없이 대화할 수 있는 95%에 도달했기 때문이다. 2013년만 해도 음성인식률은 80%에 미치지 못해 시리에서 시작된 열풍이 거품으로 치부되기도 했다. 이제는 날씨, 뉴스 등의 정보를 음성으로 검색함은 물론 음악을 요청하고, 배달음식을 주문하는가 하면, 송금을 하고 우버 차량을 호출하고, 내비게이션을 작동하기도 한다. 그리고 스마트 홈의 기기들을 음성으로 작동하는 등 수많은 응용 분야가 출현하고 있다. 아마존의 스마트 스피커를 구입한 고객의 20~30%는 이미 음성으로 상품을 주문하고 있는데 1인당 매출액이 10% 정도 증가한 것으로 조사되고 있다. 이 분야는 2023년까지 연평균 20% 이상 성장할 것으로 예상된다.
95%에 이르는 음성인식률
음성인식은 키보드를 치는 것에 비해 훨씬 쉽고 편리하다. 인간은 영어 단어를 기준으로 분당 125~175단어를 말할 수 있는데 키보드를 치는 속도는 40단어에 불과하다. 또 키보드에서 손이 자유로워지면서 다른 일을 동시에 수행할 수 있는 이점도 있다. 특히 운전할 때와 같은 상황에서는 안전을 도모할 수 있다.
이렇듯 컴퓨터 비전과 음성인식은 인간의 귀와 눈을 인공지능이 대체하고 보조할 수 있게 하고 있다. 이제 쓸 만한 수준의 단계를 뛰어넘은 인공지능은 전자상거래도 혁명적으로 바꾸고 있다. 키워드나 전자상거래 사업자가 미리 설정한 품목의 카탈로그 방식이 아니라 매장에서 점원에게 상품을 요청하듯 말하면 알아듣는 사이트가 돼가고 있다. 산업 현장의 안전과 효율을 높이는 것은 물론 모든 기계와 전자상거래 사이트를 음성인식이 가능하도록 재편할 것을 요구하고 있다. 각 언어의 음성인식률이 높아지면 자동번역 기능 또한 크게 향상될 것으로 기대할 수 있다. 만물과 대화하고 바벨탑이 사라지는 새로운 세상이 음성인식으로 열리고 있다.
KAIST 경영대 교수