"연예인 목소리로 화면해설 방송…이젠 AI가 시각장애인 '눈' 될 것"

CJ올리브네트웍스 버추얼 휴먼랩 이현기·황중수 씨

텍스트 입력하면 음성으로 변환
'AI보이스 클로닝' 기술 첫 방송
"이해 쉽고 배려 느껴졌어요" 호평
“친숙한 배우의 목소리로 들으니 콘텐츠를 이해하는 게 훨씬 쉽네요.”

시각장애인이 방송을 접할 때 활용하는 감각은 청각뿐이다. 영상을 보지 못하기 때문에 ‘귀’가 ‘눈’의 역할까지 맡아야 한다. 이들이 콘텐츠의 맥락을 따라잡는 것은 쉬운 일이 아니다. 특히 등장인물의 표정이나 몸짓, 자막 등을 적극적으로 활용하는 콘텐츠의 진입장벽이 높다는 설명이다.미디어 기업들은 화면 내용을 음성으로 설명해주는 ‘해설방송’을 통해 시각장애인을 돕고 있다. 해설방송을 만드는 데는 상당한 시간과 비용이 필요하다. 녹음과 편집, 사운드믹싱 등의 작업이 순차적으로 이뤄져야 한다. 매주 방영되는 드라마가 제일 문제다. 다음 편이 방영되기 전에 해설방송을 내놓으려면 바쁜 일정을 소화해야 한다는 게 관련 업계의 설명이다. CJ올리브네트웍스가 찾은 해법은 인공지능(AI)이다. 이 회사는 최근 tvN과 손잡고 ‘AI 보이스 클로닝’ 기술을 접목한 화면 해설방송을 내놓았다. AI 보이스 클로닝 기술을 화면 해설방송에 적용한 첫 사례다. 텍스트를 입력하면 해당 내용을 음성 언어로 즉석에서 바꿔준다.

CJ올리브네트웍스에서 가상 인간과 AI 기술 등을 담당하는 버추얼 휴먼랩의 이현기 팀장(왼쪽)은 “시각장애인이 CJ그룹의 지향점인 미디어와 문화, 예술을 더 쉽게 접근할 수 있는 방안을 고려해 화면 해설방송에 AI 보이스 클로닝 기능을 추가하게 됐다”며 “이 기술을 쓰면 성우 기용 등 다방면에서 짧은 시간 안에 여러 작품 제작이 가능하다”고 설명했다.

화면 해설방송용 목소리의 주인공으로 드라마 ‘슬기로운 의사생활’로 인지도를 높인 배우 전미도 씨가 채택됐다. 친숙한 배우의 목소리를 통해 친근한 이미지를 주겠다는 의도다. 황중수 CJ올리브네트웍스 버추얼 휴먼랩 연구원(오른쪽)은 “시각장애인은 일반 성우의 목소리보다 여러 루트로 접한 유명인들의 목소리를 더욱 익숙하게 받아들인다”며 “지난 7월 처음 AI 보이스 클로닝 기술을 접목한 해설방송이 송출되자 시각장애인들로부터 ‘배려가 느껴졌다’ ‘친숙한 목소리로 들으니 방송 내용을 단번에 이해할 수 있었다’ 등의 반응이 나왔다”고 말했다.버추얼 휴먼랩의 또 다른 과제는 버추얼 휴먼(가상 인간) 제작이다. 이 회사는 2020년 그룹 거북이를 이끌었던 고(故) 터틀맨(임성훈)의 얼굴을 AI 기반 페이스 에디팅 기술로 재현해 화제가 됐다. 최근엔 오디오와 영상 속 인물의 입술 발화를 맞추는 AI 기반 립싱크 기술인 ‘립 제너레이션’을 활용해 감정이 담긴 연기 어조를 구사하는 AI 배우를 만들기도 했다.

이 팀장은 “목소리와 얼굴, 표정과 몸짓 등 여러 면에서 사람과 구별할 수 없을 정도로 완성도가 높은 가상 인간을 만드는 게 버추얼 휴먼랩의 궁극적인 목표”라고 말했다.

배성수 기자 baebae@hankyung.com