네오사피엔스, 음성합성 기술로 '목소리 배우' 개발

"인공지능 성우, 말투·감정까지 살려"

AI성우, 한국어·영어 합쳐 100개
운율·높낮이로 희로애락 표현

타입캐스트 가입자 61만명 돌파
내레이션·오디오 독서 등에 활용
김태수 네오사피엔스 대표가 6일 서울 강남구 사무실에서 인공지능(AI) 기반 음성 합성 서비스 ‘타입캐스트(Typecast)’를 설명하고 있다. 김영우 기자
세상을 먼저 떠난 일곱 살 딸 나연이를 다시 만났다. 가상현실(VR) 기술로 생전 딸의 모습, 목소리를 그대로 재현했다. 엄마는 딸과 생전에 하지 않았던 대화도 나눴다. 지난해 많은 시청자를 울린 한 방송사의 다큐멘터리 내용이다. 목소리는 생전에 녹음된 음성을 바탕으로 인공지능(AI)을 활용해 만들었다. 국내에서 최고 수준으로 평가받고 있는 스타트업 네오사피엔스의 음성 합성 기술이다.

“AI 성우를 빌려드립니다”

김태수 네오사피엔스 대표는 6일 “기존의 딱딱한 기계음에서 벗어나 사람 목소리처럼 감정이 느껴지는 음성을 AI로 제공할 수 있다”며 “실제 성우 목소리를 분석해 음성 콘텐츠를 만들거나 고인(故人)의 목소리를 그대로 살려낼 수 있는 수준까지 기술이 발전했다”고 설명했다.김 대표가 2017년 설립한 네오사피엔스는 전문 성우 등의 목소리를 활용한 AI 음성 생성 기술을 보유하고 있다. 전화 자동응답시스템(ARS)에서 들을 수 있는 어색한 기계음과 달리 사람이 실제 말하는 듯한 착각을 일으킬 정도다. 퀄컴, KAIST 등 출신 네오사피엔스 연구진은 2017년 음성 합성에 소리의 운율과 높낮이 등을 적용해 사람의 감정도 AI로 표현할 수 있는 기술을 처음으로 선보였다.

네오사피엔스가 2018년에 공개한 도널드 트럼프 전 미국 대통령의 음성 합성 동영상은 아직도 회자된다. 트럼프의 말투를 AI가 학습해 트럼프가 한국어를 본인 말투로 구사하는 내용이다. 특정인의 말투 그대로 다른 언어를 말하게 하는 기술도 네오사피엔스가 세계 최초로 개발했다.

네오사피엔스는 자체 기술을 바탕으로 이용자가 원하는 문자 내용을 고품질 오디오 콘텐츠로 변환하는 ‘타입캐스트(Typecast)’라는 서비스를 운영하고 있다. 현재 한국어 80개, 영어 20개의 ‘AI 성우’ 또는 ‘목소리 배우’를 보유 중이다. 슬픔, 기쁨, 분노 등 다양한 감정 표현도 자유자재로 가능하다. 김 대표는 “전문 성우와 계약해 제작한 콘텐츠도 있고 AI로 새로 만든 소리도 있다”고 설명했다.

AI 연기자도 개발

기술이 알려지면서 이용자가 꾸준히 늘었다. 타입캐스트 가입자는 61만 명을 돌파했다. 최근 유튜버 등 1인 크리에이터와 영상 콘텐츠 유통이 급증하면서 타입캐스트를 찾는 이용자가 늘었다. 인기 유튜브 채널에서 타입캐스트를 사용하는 경우를 쉽게 찾을 수 있다. TV 프로그램에서도 성우가 맡았던 내레이션을 타입캐스트가 대체하기 시작했다. 전자책 구독서비스 업체인 밀리의서재는 네오사피엔스 기술을 활용해 오디오 독서 콘텐츠를 제공하고 있다.

영어 서비스도 확대할 계획이다. 올해 영어 목소리를 50개 이상으로 늘릴 예정이다. 최근 해외 매출도 매월 20~30% 증가하고 있다. 네오사피엔스의 지난해 전체 매출은 12억원이었다.

김주완 기자 kjwan@hankyung.com