사진=게티이미지뱅크
사진=게티이미지뱅크
생성형 인공지능(AI) 경쟁 구도가 텍스트와 이미지·영상을 넘어 음성 영역에서도 본격화됐다. 글로벌 빅테크 기업들이 음성 기능을 지원하는 생성형 AI 서비스를 선보였고 네이버도 이에 뒤질세라 관련 기술을 공개하고 나섰다. 업계 안팎에선 음성 기반의 생성형 AI 기술을 지원하는 대형멀티모달모델(LMM)을 중심으로 새로운 기회가 열릴 수 있다는 전망이 나온다.

음성 AI 주력하는 빅테크들, 경쟁 '본격화'

26일 업계에 따르면 최근 주요 기업들이 음성 기능을 제공하는 생성형 AI 서비스를 앞다퉈 선보이고 있다. 오픈AI는 지난달 일부 챗GPT 유료 사용자를 대상으로 음성 기능을 제공하기 시작했다. 'GPT-4o'의 고급 음성 모드 알파 버전을 선보인 것.

GPT-4o는 멀티모달을 적용해 텍스트·이미지 정보를 음성으로 빠르게 변환한다. 멀티모달은 텍스트·이미지·영상·음성 등 여러 유형의 데이터를 인지하고 변환해 활용할 수 있도록 뒷받침한다.

오픈AI의 신규 모델은 멀티모달 토대로 텍스트·이미지 데이터를 활용해 음성을 생성할 수 있다. 음성으로 명령을 해도 AI가 내용을 추론하고 결과를 도출한다. 목소리에서 느껴지는 감정을 인지할 수 있는 기능도 갖췄다. 대화를 통해 AI 서비스를 간편하게 이용할 수 있게 된 셈이다.

지난 4일(현지시간)엔 메타가 유명 배우·인플루언소 목소리를 자사 AI 모델에 탑재하기 위한 협상을 진행 중이라는 소식이 알려졌다. 이들의 목소리를 메타 AI 모델인 '메타 AI'에 활용한다는 계획이다.

메타 AI는 지난해 7월 메타가 처음 선보인 'AI 비서'다. 페이스북, 인스타그램, 왓츠 등에 탑재됐다. 메타 AI는 텍스트 기반이지만 음성 기능을 더해 사용자 질문에 답할 수 있는 대화형 서비스로 변화할 전망이다. 대화형 서비스로 사용자 편의성과 상호작용 경험을 한층 끌어올리겠다는 구상이다. 이 기능은 이르면 다음 달 중 공개될 수 있다.

메타는 지난해 6월 영어·프랑스어·스페인어·독일어·폴란드어·포르투갈어 등 6개국 언어를 음성으로 생성하는 '보이스박스'를 개발하기도 했다.

네이버, '스피치X' 공개…실시간 통역 등 예고

네이버도 음성 AI 경쟁에 밀리지 않기 위해 이달 초 자사 초대규모 AI 하이퍼클로바X 기반의 '스피치X' 기술을 공개했다. 네이버의 대표적 멀티모달 LLM으로 꼽히는 스피치X는 텍스트와 음성을 결합해 자연스러운 음성을 생성한다. 복잡한 음성 패턴을 인식하고 언어와 문맥을 이해하도록 설계됐다. 자연스러운 대화가 가능한 것이다.

오픈AI와 마찬가지로 감정도 인식한다. 사용자가 슬픈 이야기를 하면 부드럽고 서글픈 음성을 생성하는 식이다.

네이버는 스피치X의 실시간 음성 번역 기능도 예고했다. 사용자가 말하는 즉시 다른 언어로 번역해 음성을 생성하는 방식으로 실시간 통역 서비스를 제공하겠다는 계획이다. 또 심리 상담부터 대화형 AI 등 가상 비서, 법률·의료 자문에 이르기까지 다양한 용도로 활용할 예정이라고 설명했다.

네이버는 대화형 AI 서비스 '클로바X'에 시각 정보 처리 능력을 추가하는 업데이트를 예고하면서 스피치X를 위한 발판도 마련해 놓은 상태다.

전문가들 사이에선 LMM 중심의 생성형 AI 서비스를 기반으로 사업 모델이 재편될 것이란 관측이 나온다.

정명석 아주대 과학기술정책대학원 교수는 정보통신기획평가원을 통해 "수천억개 이상의 파라미터를 기반으로 한 LLM 중심의 시장은 텍스트·이미지·음악·영상 등 여러 형태의 데이터를 처리하는 LMM으로 진화할 것"이라며 "LMM을 통해 보다 풍부하고 생생한 콘텐츠를 제작할 수 있도록 발전하고 이는 증강현실(AR), 가상현실(VR), 혼합현실(MR) 등의 분야에서 새로운 가능성을 열 것"이라고 내다봤다.

김대영 한경닷컴 기자 kdy@hankyung.com