AI 성우·음원 분리…오디오테크, OTT · 가상현실 타고 볼륨 업

# 가우디오랩은 실시간 소음 제거 서비스 ‘저스트보이스’로 내년 초 열리는 CES 2024에서 혁신상을 수상한다. 인공지능(AI) 음원 분리 기술을 이용해 콘텐츠 속 잡음을 없애주는 서비스다. 예를 들어 영화나 드라마 속 배우의 목소리가 잘 안 들릴 때, 시끄러운 환경에서 화상 미팅을 할 때, 온라인 게임을 할 때 음성 채팅에서 같은 팀원의 목소리가 다른 소리에 묻힐 때 활용할 수 있다.

# 5년차 스타트업 뉴튠은 ‘블록 뮤직’이라는 키워드를 내세웠다. 회사가 내놓은 믹스오디오는 레고 블록처럼 소리를 이리저리 조립하면서 가지고 놀 수 있는 서비스다. 블록 형태의 짧은 음원들을 조립하고, 음원에서 뽑아낸 비트나 악기 소리 같은 음악 조각을 원하는 대로 붙인 뒤 새로운 음악을 만들 수 있다. 회사는 이 서비스로 올 초 CES 2023 혁신상을 받았다.

소리에 기술을 입힌 ‘오디오테크’가 뜨고 있다. 온라인동영상서비스(OTT) 시장이 커지면서 영상 콘텐츠 속 음향 품질은 점점 더 중요해지고 있다. 메타버스 시대가 본격화하면 입체적인 ‘소리 경험’에 대한 수요가 늘어날 전망이다. 글로벌 시장조사업체 트랙슨에 따르면 전 세계 오디오테크 회사에 최근 2년간 3억8100만달러(약 5000억원)의 투자금이 흘러 들어갔다.

AI 무장한 ‘소리 기술’

오디오테크 스타트업 업계에서는 AI가 접목되며 기술 각축전이 벌어지고 있다. 가우디오랩이 내세운 AI 음원 분리 기술은 여러 음원이 섞여 있는 오디오 신호에서 개별 음원을 추출한다. 이 기술은 소음 제거, 특정 음원 추출, 고성능 MR 제거, 가사 자막 싱크 등에 활용할 수 있다. 가우디오랩은 “얼마나 음원을 잘 분리해냈는지를 나타내는 지표인 SDR에서 10.02를 기록해 이 분야만큼은 메타와 소니 같은 글로벌 빅테크보다 앞섰다”고 자평했다.

올 초 하이브에 인수된 오디오 AI 스타트업 수퍼톤도 생성형 AI를 활용한다. 음색과 발음, 음의 높낮이 같은 요소를 자유롭게 조합해 다양한 목소리를 만들 수 있는 게 특징이다. 게임 캐릭터 음성이나 더빙이 필요한 OTT 콘텐츠에도 적용할 수 있다. 디즈니+ 드라마 ‘카지노’ 속 젊은 최민식 배우의 목소리, 넷플릭스 시리즈 ‘마스크걸’의 주인공이 내는 목소리에 이 회사 기술이 사용됐다.

AI 성우 기술로 잘 알려진 네오사피엔스도 일찌감치 이 분야에 뛰어든 회사다. 이 회사가 내놓은 타입캐스트는 텍스트를 입력하면 음성에 감정을 입혀 들려주는 서비스다. 단순히 ‘기쁨’ ‘화남’ 같은 감정을 넘어 ‘슬프지만 꿋꿋하게’ 같은 음성 표현도 가능하다. 서비스 누적 가입자 수는 155만 명이 넘는다.

슬립테크 등에도 적용

기술로 무장한 오디오테크 적용 분야는 무궁무진하다. 힐링비트를 개발한 스타트업 스트레스솔루션은 스마트워치 같은 웨어러블 디바이스를 통해 심박동수 등의 데이터를 수집한 뒤 스트레스 정도를 측정한다. 이를 통해 마음이 편안해지는 개인 맞춤형 소리를 들려준다. AI 스타트업 사운드플랫폼 역시 지난 10월 뇌파와 노이즈 음악을 합성한 소리로 숙면을 돕는 앱을 출시했다. 제이디솔루션은 원하는 곳에 소리를 모아 전달하는 초지향성 음파 기술을 개발했다. 경고 방송이나 쓰레기 무단 투기 방지 방송 등에 이 기술이 활용된다.

듣는 콘텐츠도 각광

소리를 얼마나 다양한 콘텐츠로 만들어내는지도 오디오테크 스타트업의 성패를 가늠하는 척도다. 오디오 콘텐츠 소비자를 일컫는 ‘사운드슈머’(사운드+컨슈머)라는 신조어도 등장했다. 밀리의서재, 윌라 같은 대형 오디오북 회사들은 이미 주류로 떠올랐다. 글로벌 오디오 콘텐츠 시장은 2030년 735억달러(약 95조5000억원)에 이를 전망이다.

유아 시장을 겨냥한 오디오 플랫폼 코코지는 사물인터넷(IoT) 기반의 오디오 플레이어를 내놨다. 아이들이 캐릭터 인형을 플레이어에 꽂으면 오디오북이나 노래를 들을 수 있다. 요기요 공동창업자 출신 박지희 대표가 창업한 이 회사는 동화부터 과학·영어·경제 같은 교육 콘텐츠까지 내놨다. 자체적으로 창작동화 공모전을 열어 작가를 발굴하고, 키즈 전문 성우가 녹음에 참여하는 등 콘텐츠 고도화에 힘쓰고 있다.

액셀러레이터 스파크랩의 투자를 받은 나디오 운영사 이어가다는 ‘귀로 듣는 멘털 케어’를 슬로건으로 내세웠다. AI 기반 음성 합성 기술(TTS)을 토대로 ‘보이스 폰트’를 개발했다. 이를 통해 개별 이용자가 플랫폼에 자유롭게 콘텐츠를 올릴 수 있도록 했다. 브이로그처럼 개인의 일상을 담는 오디오로그가 주력이다. 그런가 하면 센슈얼모먼트는 여성향 오디오 드라마 플랫폼 ‘플링’을 내놨다. 숏폼 형태의 콘텐츠를 주력으로 해 완청률을 높인 게 특징이라고 회사 측은 설명했다.

투자자 끌어모으는 오디오테크

오디오테크 회사는 자금 조달도 활발한 편이다. 코코지는 지난해까지 누적 130억원의 투자를 유치했고, 가우디오랩과 뉴튠은 각각 네이버D2SF와 카카오벤처스의 러브콜을 받았다. 네오사피엔스는 지난해 실리콘밸리 투자사 등으로부터 256억원을 받았다.

가우디오랩에 투자한 LB인베스트먼트의 박기호 대표는 “영상은 3차원(3D)에서 4차원(4D) 등으로 계속 발전했지만 오디오 분야는 발전이 더딘 ‘플랫’ 상황이었다”며 “가상현실(VR)·증강현실(AR) 기술 발달이 가속화하면 사람들의 귀를 사로잡을 수 있는 새로운 도전들이 지속적으로 나올 것”이라고 말했다.

김종우 기자 jongwoo@hankyung.com