‘인공지능(AI) 스피커’의 미래에 대해선 낙관과 아쉬움이 교차한다.

우선 낙관론. 편하다. 집에서는 스마트폰을 놓고 “아리아”(SK텔레콤 NUGU)든 “알렉사”(아마존 에코)든 애칭을 부른 뒤 자연스럽게 얘기 나누며 가전기기들을 움직인다. AI 스피커는 ‘사물인터넷(IoT)의 지휘자’가 된다. 아직은 아쉽단 의견도 있다. 국내 AI 스피커 보급은 올해 800만대까지 늘어날 전망이지만 사용자 만족도가 낮다. 데이터가 쌓이고 기술이 향상되려면 핵심은 ‘콘텐츠’다. 음원 서비스 정도를 빼면 AI 스피커 플랫폼에 들어갈 콘텐츠가 의외로 마땅찮다.

올 초 영어교육 전문기업 윤선생과 SKT의 AI 스피커 ‘누구’ 캔들이 손잡고 ‘윤선생 스피커북’을 내놓은 것은 이러한 고민이 반영된 결과물이었다. 윤선생은 아이들이 대화하듯 즐겁게 학습할 수 있는 사용자 환경을, SKT는 맞춤형 교육 콘텐츠를 확보하는 시너지 효과를 노렸다.

윤선생 스피커북 패키지. 윤선생 스토리북, 워크북과 SKT AI 스피커 '누구' 캔들로 구성됐다. / 출처=윤선생 스피커북 홈페이지
윤선생 스피커북 패키지. 윤선생 스토리북, 워크북과 SKT AI 스피커 '누구' 캔들로 구성됐다. / 출처=윤선생 스피커북 홈페이지
출시 소식을 접하고 ‘음성인식 수준은 어느 정도일까’ ‘어떤 메커니즘으로 작동하는지’ ‘아이들은 얼마나 재미있어 할까’ ‘아이들이 해도 무리 없이 기능이 돌아가는지’ 등의 궁금증이 일었다. 그래서 기자가 6살 아들과 함께 윤선생 스피커북 패키지를 체험해봤다(상단 영상 참조).

윤선생 스피커북은 AI 스피커와 영어 스토리북, 워크북으로 구성됐다. 아이들이 대화하듯 주고받으며 학습케 하는 데 초점을 맞췄다.

AI 스피커 ‘누구’를 깨우려면 “아리아”라 부르는 게 기본이다. 캔들 모양 AI 스피커에 푸른빛 조명이 켜지며 음성 안내가 나온다. “우와!” 아이가 탄성을 내질렀다. “우리, 영어책 읽어달라고 해볼까?” “응!” 다음 단계는 “윤선생” 호출어를 더하면 된다. “아리아, 윤선생 스토리북 들려줘” 말하니 AI 스피커가 음성을 인식해 곧바로 윤선생 스토리북으로 넘어갔다.

여기가 킬링포인트. ‘초통령’(초등학생들의 대통령) 헤이지니가 까랑까랑한 목소리로 등장한다. 아이들이 딴 짓하다가도 “헤이지니다!” 외치며 달려와 앉는다는 인기만점 키즈 크리에이터다. 무심한 아빠인 기자는 “헤이지니면 ‘기가지니’(KT)와 어울리는 것 아니냐”며 우스갯소리 하기도 했지만, 헤이지니가 ‘1대 캐리 언니’임을 귀띔 받고는 그럴 만하다며 고개 끄덕였다(하단 영상 참조).


윤선생 스피커북 사업 담당 김휘수 과장은 헤이지니를 발탁한 데 대해 “전문 성우를 쓰니 정석이긴 하지만 아이들은 지루할 수 있겠다 싶더라. 화면 없이 음성으로만 공부하는데 과연 아이들이 집중할 수 있을까 고민하던 참에 헤이지니를 떠올렸다”고 말했다. 대신 영어 파트는 외국인 성우를 기용해 정확한 발음에 신경 쓰고, 헤이지니는 우리말 전달에 집중했다.

특색이 뚜렷했다. 스토리북 내용을 직역해 읽어주지 않고 나름의 스토리텔링이 들어간다. 커다란 덩치에 놀라 동물들이 도망가자 외로워진 초식공룡이 슬퍼한다는 줄거리를 예로 들어보자. 책 속 공룡이 말하는 “I like grass. I want friends.”의 경우 “난 풀을 좋아해. 난 친구들을 원해.” 식으로 단순 직역하지 않고 헤이지니가 “저런, 공룡이 슬펐구나” 따위 풍부한 우리말 스토리텔링을 곁들이는 식이다. 딱딱하지 않게 아이들 공감을 자아내는 데 초점을 맞췄다. 윤선생 관계자는 “그 덕분에 아이들이 5~10분씩 집중할 수 있는 것 같다”고 귀띔했다.

윤선생 스피커북에 스토리텔러로 참여한 인기 키즈크리에이터 헤이지니. / 출처=윤선생 스피커북 홈페이지
윤선생 스피커북에 스토리텔러로 참여한 인기 키즈크리에이터 헤이지니. / 출처=윤선생 스피커북 홈페이지
음성인식률은 기대 이상이었다. “지금 듣고 있는 게 뭐야?” “처음부터 들려줘” 등 각종 지시어도 대부분 무리 없이 소화해냈다. 연속지시도 마찬가지였다. 가령 “아리아, 윤선생 공룡 들려줘”라고 지시하면서 휴대폰으로 동영상 촬영한 뒤 이를 재생해도 음성인식에 성공했다. 육성이 아닌 녹음된 목소리여도 AI 스피커가 인식할 수 있다는 얘기다.

지시어를 1:1 매칭(matching)한 게 아니어서 유동성도 어느정도 확보했다. 아이가 “아리아” 아닌 “아리야”라 불러도, “처음부터 들려줘” 대신 “처음부터 틀어줘”라고 말해도 인식이 됐다. 또한 AI 스피커와의 거리가 꽤 멀어도 잡음이 없으면 거의 인식에 성공했다.

“윤선생” 호출어를 생략하고 “공룡 들려줘”라고만 지시해봤다. 그러자 윤선생 공룡 스토리북이 아닌 ‘핑크퐁 공룡 노래’가 흘러나왔다. “응?” 달라진 AI 스피커의 지시 수행에 잠깐 당황하던 아이가 곧 흥얼거리며 따라 부르긴 했지만.

SKT 관계자는 “AI 스피커의 서비스 로직(호출어)을 지정해야 해당 서비스로 인식하도록 했기 때문”이라며 “즉 ‘윤선생’이라고 호출어를 부른 뒤 지시해야 파트너사 간 충돌이 나지 않는다. 호불호가 있지만 오픈플랫폼 기반으로 각 파트너사들과 협업하려면 호출어 작업은 필요하다”고 설명했다.

음성을 텍스트로 변환해 인식하는 게 AI 스피커의 기본구조다. 이를테면 “쥐돌이 들려줘”라는 지시어가 부정확한 아이들 발음 탓에 ‘지더리’로 추출되기도 하는데, 이 경우 해당 텍스트도 ‘쥐돌이’와 동일하게 인식하도록 메커니즘을 수정한다.

SKT의 AI 스피커 '누구' 캔들.
SKT의 AI 스피커 '누구' 캔들. "아리아"라고 부르면 음성을 인식해 조명이 켜지며 반응한다.
아쉬운 점도 있었다. 윤선생 스피커북의 타깃 연령층은 7세 내외 아동이다. 해당 연령대 아동의 음성 인식률은 80% 이상으로 설정했다. 개인별 차이는 있겠지만 기자의 6살 아들은 익숙해지기까지 조금 애먹었다. 아이가 “아리아, 윤선생 공룡 들려줘”라는 지시어를 어른처럼 정확히 발음하고, AI 스피커가 단박에 인식·수행하기가 생각처럼 쉽지만은 않았다.

정확한 시간을 재본 것은 아니나 지시어 사이에 잠시 공백이 생겨도 인식 오류가 났다. 즉 아이가 중간에 머뭇거리지 않고 또박또박 발음해야 AI 스피커가 인식했다. 몇 번 해보다가 실행이 잘 안 되면 자칫 아이가 흥미를 잃을 우려도 있겠다 싶었다. 초등학생 수준이면 충분히 가능한 데 비해 미취학 아동의 경우 익숙해지는 절차가 다소 필요할 수 있다.

물론 이같은 아쉬움은 데이터가 쌓이고 기술이 고도화되면서 점차 개선될 것으로 보인다.

윤선생의 김휘수 과장은 “워크북 지시어가 다소 길고 반면 AI 스피커의 인식 대기시간은 짧은 느낌이 있다. 2차 버전에선 지시어를 좀 더 짧게 줄여나갈 계획”이라고 말했다. SKT 관계자도 “SKT 키즈폰의 음성 데이터도 ‘누구’ 엔진에 학습시켜 고도화하고 있다”고 덧붙였다.

새로운 시도는 고스란히 데이터로 쌓이는 중이다. 윤선생 스피커북 출시 후 영어학습을 시도하는 지시어가 꽤 늘었다고 했다. AI 스피커를 통한 어학교육 잠재 수요가 확인된 셈이다. 아이들의 부정확한 발음이 잡히면서 음성인식률 향상의 계기로 삼는 효과도 있다. 무엇보다 AI 스피커가 일상으로 들어오면서 상용화와 미래고객 확보가 기대된다는 반응이 나왔다.

김봉구 한경닷컴 기자 kbk9@hankyung.com
기사제보 및 보도자료 open@hankyung.com