로봇이 3D 지도 만들고 사람 표정에 반응…KT 인공지능 기술 공개
KT가 산·학·연 AI 협력체 AI원팀을 통해 공동 연구개발(R&D)을 벌여 AI 기술 네 종류를 개발했다고 14일 밝혔다. AI원팀은 KT를 비롯해 현대중공업그룹, LG전자, 한국투자증권, 동원그룹, 우리은행, KAIST, 한양대, 한국전자통신연구원(ETRI) 등이 참여하는 국내 최대 AI 연구 협력체다. 2020년 2월 출범했다.

KT에 따르면 AI 원팀은 로봇 실내 공간지능 기술, 로봇 사회적 상호작용 기술, 보이스 클로닝(목소리 복제) 기술, 한국어 엔드투엔드(E2E) 음성인식 학습 기술 등이다. AI 원팀은 국내 AI 전문가 약 40명으로 구성된 'AI 구루' 그룹을 꾸려 AI를 통한 각 기업 난제 해결을 논의해왔다. 작년엔 이를 통해 딥러닝 음성합성 등 기술 네 개를 개발했다.

'로봇 실내 공간지능’ 기술은 KT와 명현 KAIST 교수가 함께 개발했다. 로봇이 실내 공간에 있는 사물을 식별하고 사물의 위치를 기억하도록 하는 기술이다. 로봇이 객체를 인식하고 특정인이나 사물 등의 위치를 인식해 3차원(3D) 지도를 만들어 실시간 업데이트한다. AI원팀은 이 알고리즘을 바탕으로 기술을 실내 자율주행에 접목하는 연구를 벌일 예정이다. KT의 로봇 실내 자율 주행 정밀도를 끌어올린다는 계획이다.

‘로봇 사회적 상호작용(소셜 인터랙션)’ 기술은 KT와 윤성의 KAIST 교수 연구진이 함께 개발했다. AI가 사용자의 얼굴과 행동을 인식한 후, 로봇이 수행할 행동을 알고리즘을 통해 추천한다. KT는 이 알고리즘을 비롯해 각종 개별 알고리즘을 KT 로봇에 접목할 계획이다. 이용자에 개인화된 로봇 상호작용을 구현하기 위해서다.

‘보이스 클로닝’ 기술은 KT와 김회린 KAIST 교수가 공동 연구했다. 개인화 음성합성을 위한 목소리 복원 알고리즘이다. 개인의 음성 샘플을 AI가 딥러닝으로 학습해 목소리를 재현한다. 개인화 문자 음성 변환(TTS) 핵심 기술이다. 연구진은 작년엔 기본 방식 대비 비용은 25% 수준으로 낮추고, 속도는 10배 가량 빠른 CPU 기반 음성합성 알고리즘을 개발했다. 이번 연구에선 음성 재현에 필요한 학습 데이터 최소 분량을 기존 30분에서 3분으로 줄였다. KT는 이 기술을 기가지니, AI 통화비서, AI 로봇, AI 교육 등에 도입해 ‘커스텀 개인화 TTS 서비스’를 상용화할 예정이다.

‘한국어 E2E 음성인식 트랜스퍼 학습' 기술은 KT와 장준혁 한양대 교수가 개발했다. 한국어 음성인식 성능을 높였다. 기존 최고 성능을 내는 딥러닝 음성인식 모델 대비 에러율을 13.7% 줄였다는 설명이다. 적은 도메인 데이터를 활용해 음성인식을 개선할 수도 있게 됐다. AI가 모델을 처음부터 다시 학습하는 것이 아니라 기존 모델을 재사용하는 방식을 통한다.

KT는 이 기술들을 모두 AI 사업 고도화에 적용할 예정이다. 송재호 KT AI/DX융합사업부문장(부사장)은 “KT의 AI 서비스 등 산업 현장의 풍부한 데이터를 바로 연구기관에 제공한 덕에 연구 성과가 났다"며 "올해도 AI 원팀에서 연구기관, 기업, 스타트업 간의 협력을 통해 시너지를 낼 것"이라고 말했다.

선한결 기자 always@hankyung.com