책 읽어주는 '음성인식'…진짜 사람인 줄 알았네

테크 & 사이언스

텍스트→목소리 바꿔주는 TTS
딥러닝 통해 특정인 음성 구현

목소리→텍스트 변환하는 STT
연령·누가 말했는지도 구별
클로바 ‘보이스더빙’
서울의 한 중학교 교사인 박모씨는 교육용 영상을 직접 제작한다. 신종 코로나바이러스 감염증(코로나19) 확산 이후 온라인 개학한 학생들을 위해서다. 영상을 만들면서 박씨는 늘 녹음한 자신의 목소리가 어색했다. 그러나 네이버의 ‘클로바 보이스더빙’을 사용하면서 고민을 해결했다. 텍스트만 입력하면 사람이 직접 읽는 듯한 목소리로 녹음돼 나온다.

기계가 어떻게 문장을 인식해 사람 목소리를 흉내내는 걸까. 여기에는 음성인식 기술이 자리잡고 있다. 음성인식 기술은 크게 두 가지로 나뉜다. 텍스트를 기계가 음성으로 바꾸거나 사람이 말을 하면 이를 텍스트로 변환해준다. 앞의 형태는 TTS(text to speech), 후자는 STT(speech to text) 기술이다.일상에서 많이 사용하는 대부분의 인공지능(AI) 스피커, AI 검색 기능에는 STT 기술이 들어 있다. 음성엔진이 음성을 인식해 텍스트로 변환한 뒤 이해하는 방식이다. 네이버의 번역 앱 파파고도 마찬가지다. 반면 클로바 보이스더빙에는 TTS 기술이 접목됐다. 네이버는 기사 읽기 서비스에 이 기술을 도입했고, 카카오도 올해 중 재난방송에 적용할 예정이다.

TTS 기술을 구현하려면 이미 녹음한 사람 목소리를 쪼개 모아둔 데이터베이스(DB)가 필요하다. 음성 엔진은 텍스트가 입력되면 DB에서 문장에 걸맞은 목소리 조각을 찾아 조합해 내놓는다. 이런 방식을 파형접합합성(UTS)이라고 부른다.

이 방식은 끊어읽기나 발음 등이 부자연스러워 사람이 아니라는 것을 금세 눈치챌 수 있다. 얼마나 인간과 비슷하게 문장을 발음하는지 여부가 음성 엔진의 성능을 판가름짓는 잣대가 되는 이유다. 각 단어는 문장의 위치, 연결된 단어의 조합에 따라 다르게 발음되기 때문에 정교화 과정에 많은 노력이 들어간다. TTS 기술은 AI가 결합하면서 더 자연스러운 형태로 발전하고 있다.네이버는 자체 개발한 하이브리드 음성합성(HDTS) 기술을 활용해 자연스러운 목소리를 구현했다. 이 기술은 UTS에 딥러닝 기술을 접목해 문장을 학습시키는 방식이다. 특정인의 목소리를 구현하기 위해 기존 40시간 녹음해야 했던 과정을 40분으로 단축했다. 네이버 관계자는 “목소리 구현을 위해 필요한 시간을 지속적으로 줄여나갈 것”이라고 말했다.

STT 기술도 빠르게 진보하고 있다. 기존 STT 기술은 단순히 발화 내용만을 인식해 텍스트화했다. 그러나 요즘은 발화자를 인식(화자인식)하거나 여러 명이 말하면 각 발화자의 내용을 분리해 인식(다중화자인식)하는 수준으로 발전했다.

발화자를 인식하면 개인화 서비스, 인증 등에 활용할 수 있다. KT는 올해 자사 인터넷TV(IPTV) AI 셋톱박스에 화자인식 기능을 활용한 ‘키즈 안심 검색’ 서비스를 시범으로 내놨다. 발화자의 연령을 구별해 아이가 “상어 검색해줘”라고 말하면 ‘핑크퐁 아기상어’, 어른이 같은 말을 하면 영화 ‘샤크어택’을 보여주는 식이다. 또 고객센터에는 녹취를 활용해 개인인증하는 방식을 도입했다. 다중화자인식은 자동 회의록 작성 등에 활용될 수 있다.음성인식 기술은 코로나19 방역 과정에서도 역할을 하고 있다. SK텔레콤의 AI 서비스 ‘누구 케어콜’은 보건소 직원 대신 하루 두 번씩 직접 전화해 대상자의 발열, 체온, 기침, 목아픔 등의 증상을 점검한다. TTS를 활용해 사람처럼 질문하고, STT로 대상자의 답변을 텍스트화해 증상에 따라 자동 분류한다. SK텔레콤 관계자는 “경남지역을 시작으로 전국으로 서비스 범위를 확대할 예정”이라고 설명했다.

홍윤정 기자 yjhong@hankyung.com