격전지 된 음성 AI…하이브도 가세한다
음성 생성 기술이 인공지능(AI) 기술의 격전지가 됐다. 오픈AI가 음성 대화를 할 수 있는 GPT를 내놓은 데 이어 국내에서도 AI로 0.05초 안에 음성을 변조하는 기술이 개발됐다.

19일 정보기술(IT)업계에 따르면 BTS, 뉴진스 등 레이블이 소속된 하이브의 AI 자회사 수퍼톤은 실시간 음성 변환 서비스인 ‘시프트’를 하반기에 출시한다. 지난 3월 공개 테스트를 개시해 이미 이용자 1만6000여 명을 확보했다. 시프트는 이용자 목소리를 캐릭터 10여 개 중 하나로 0.05초 만에 바꿔준다. 기존 기술로는 3~5초가 걸리던 일이다. 음 높낮이, 실제 목소리 합성 비율, 억양 세기 등도 수정할 수 있다. 목소리를 바꿔가며 실시간 대화가 가능하다는 얘기다.

수퍼톤이 노리는 시장은 유튜브를 비롯한 온라인동영상서비스(OTT) 영역이다. 신원 노출을 꺼리는 크리에이터가 대상이다. 업계에선 수퍼톤이 하이브 소속 아티스트나 인기 지식재산권(IP) 캐릭터의 목소리를 활용하는 것도 가능할 것으로 보고 있다. 이교구 수퍼톤 대표는 “실제 사람 목소리는 오남용될 우려가 있어 당장 적용되기 쉽지 않을 것”이라며 “IP 공급사와 협의해 캐릭터 음성을 생성하는 데 집중하겠다”고 말했다.

AI 연구가 쌓이면서 문자를 음성으로 바꿔주는 기술(TTS)은 이미 구식이 됐다. 음성 생성 기술에 다른 기술을 결합해 차별화를 시도하는 기업이 즐비하다. 중국 레노버는 수화 영상을 음성으로 바꿔주는 기술을 최근 공개했다. 네덜란드에선 AI 스타트업 윕스가 언어 장애로 불분명해진 목소리를 또렷하게 바꿔주는 기술을 개발하고 있다.

수퍼톤이 우려하듯 음성 생성 기술은 악용될 소지가 크다. 이미 보이스피싱에선 신종 사기 수법으로 자리 잡았다. 10초가량의 음성 샘플을 확보하면 AI로 범죄 대상의 가족 목소리를 흉내 내는 게 가능하다. 금융감독원에 따르면 국내 보이스피싱 피해액은 2022년 1451억원에서 지난해 1965억원으로 35% 늘었다. 미국 연방통신위원회(FCC)는 사기 범죄를 우려해 자동 녹음 전화에 AI가 만든 음성을 적용하는 것을 2월 불법으로 규정했다.

빅테크들은 음원에도 워터마크를 넣어 오남용을 줄이려 하고 있다. 메타는 음원용 워터마크 생성 기술인 ‘오디오실’을 2월 공개했다. 사람이 듣지 못하는 미세한 음을 배열한 뒤 이를 검출기로 걸러내 원본과 가짜를 판별한다. 반면 구글이 지난해 말 도입한 워터마크 기술은 음원 주파수를 시각화한 이미지에 워터마크를 심는 방식이다. 지난 14일 음성 대화가 가능한 AI인 ‘GPT-4o’를 내놓은 오픈AI도 TTS 서비스인 ‘보이스엔진’에 워터마크 기능을 적용하기로 했다. 핀드롭, AI올낫, AI보이스디텍터처럼 AI가 만든 음성을 걸러내는 기업도 있다. 이들의 AI 음성 검출 정확도는 80% 안팎으로 알려졌다.

이주현 기자 deep@hankyung.com