코로나19가 이끈 ‘3세대 인공지능’의 관심
본격적인 음성인식 경제 시대가 도래했다고 봐도 과언이 아닐 정도로 음성으로 대화가 가능한 모든 산업과 서비스에 음성인식이 적용되고 있다. 단순한 명령 정도만 알아듣는 음성인식 가상비서로 시작했던 음성인식 기술은 심층 신경망을 포함한 기계학습 기술의 혁신적인 발전과 함께 대용량 분산 처리 기술이 적극적으로 도입되면서 음성인식 성능이 크게 향상되었다.

솔트룩스는 인공지능 기반 고객상담과 질의응답 시스템 구현을 위한 연구개발을 지속해온 결과 금융 부문의 비대면 음성 상담 서비스 시스템 구축과 상용화에 세계적인 성공 사례를 확보했다. 국내 한 은행의 사례를 보면 고객 및 내부 직원으로부터 매월 10만여 건 이상의 신규 문의가 발생하는데 이를 인공지능 챗봇, 상담 어시스턴트로 처리해 연간 수십억 원을 절약한다.

기계가 사람의 말을 알아듣기 위해서는 음성인식 엔진의 성능이 중요하다. 솔트룩스는 작년 8월 국내에서 음성인식 솔루션을 자체 개발한 아틀라스랩스와 전략적 투자 및 사업 협력을 위한 양해각서를 체결하고 액티브 러닝(Active Learning)이 적용된 ‘3세대 음성인식’ 기술에 관한 공동 연구를 진행해왔다. 아틀라스랩스는 전 세계적으로 가장 많이 쓰이는 음성인식 오프소스인 Kaldi를 기반으로 자체 음성인식 솔루션 ‘Zeroth Enterprise Edition(Zeroth EE)’를 개발했고, 국내 대기업/중소기업과의 프로젝트를 통해 해당 기술의 우수성을 검증 받았다.

음성인식 기술은 간단한 기계학습이나 시그널 분석을 활용한 1세대, 딥러닝 기술을 적용한 2세대, 액티브 러닝을 적용한 3세대까지 발전되는 추세다. 솔트룩스와 아틀라스랩스가 공동 연구/개발한 음성인식 액티브 러닝 기술의 핵심은 어떤 데이터(오디오)를 먼저 레이블링(선별)해서 음성인식기를 학습하게 할 것인지에 있다. 액티브 러닝 기술을 통해 전체 1/3 수준의 데이터로 학습할 수 있는 스몰데이터 러닝이 가능해 비용과 시간을 70% 이상 절감할 수 있고 음성인식 엔진의 음향모델을 최적화하는 것이 가능하다. 기존의 음성인식 엔진이 구축된 기업에서 음성인식기의 성능을 높이려면, 기업에서 실제 운영을 통해 약 천 시간 분량의 실데이터를 확보해야만 한다. 설사 천 시간 분량의 오디오 데이터를 확보하더라도 해당 오디오에 대한 전사 데이터를 만들기 위해서는 추가로 막대한 시간과 비용이 필요하다. 시간당 전사 비용을 10만 원씩만 책정해도 1억 원 이상이 필요한 구조이다. 이러한 이유로 음성인식 엔진을 도입한 많은 기업에서는 고객 응대 매뉴얼 변화 및 서비스 확장에 따른 음성인식기 성능 업그레이드가 필요함에도 섣불리 시도하지 못하는 상황이다.

솔트룩스 관계자는 “액티브 러닝 기술이 적용된 음성인식 엔진을 도입할 경우, 품질은 높아지고 음성인식 엔진 업그레이드 비용은 기존 대비 최대 1/5 수준까지 절감될 수 있을 것”이라며, “딥러닝 기반의 음성인식 기술을 지식그래프와 연동함으로써 3세대 인공지능 기술의 핵심인 앙상블 인공지능(뉴로 심볼릭 인공지능), 설명 가능한 인공지능의 상용화를 열게 됐다”라며 많은 기대감을 나타냈다.


한경닷컴 뉴스룸 open@hankyung.com