"헤이 구글" 안 불러도 되고, 혼잣말은 거르고…똑똑해진 AI 비서
입력
수정
명령어인지, 혼잣말인지…상황·맥락 파악해 명령어 수행인공지능(AI) 비서가 진화하고 있다. 이용자가 명령어로 깨우지 않아도 뉘앙스를 알아서 해석하고 사투리까지 척척 알아듣는다.
국내서도 '대화형 AI' 개발 진행 중
15일 업계에 따르면 지난 12일 구글은 '구글 I/O 개발자 컨퍼런스 2022' 개최에 앞서 브리핑 세션을 열고 새로운 기술을 공개했다. 그 중 하나가 구글의 AI 비서인 구글 어시스턴트의 '룩 앤 톡(Look and Talk)' 서비스였다.이 서비스는 명령어를 말하지 않고 그저 기기를 쳐다보고 얘기하면 이용자의 의도를 인식한다. 예를 들어, 현재는 구글 어시스턴트를 쓰기 위해서는 "헤이 구글~"이라고 명령어를 말해야 했지만, 이러한 발화없이 그저 스마트폰을 보고 "근처에 있는 식당을 알려줘"하면 알아서 찾아주는 식이다.
이용자가 이야기하는 게 그저 혼잣말인 건지, 명령어인 건지, 자신(AI)에게 건네는 말인지 등에 대한 복합적인 상황이나 말의 뉘앙스를 AI가 스스로 파악하고 인식하는 셈이다. 구글은 이같은 서비스를 위해 "근접성, 이용자의 머리방향, 시선 방향, 입 모양, 상황 인지, 이용자 식별 및 의도 분류 등 100개 이상의 신호를 실시간으로 처리하는데, 무려 6개의 머신 러닝 모델이 필요하다"고 설명했다.
국내에서는 '사투리'를 알아 듣는 수준으로까지 AI 음성인식이 진화했다. AI 스피커 초반에는 명령어가 한정돼있다는 점, 사투리는 잘 못알아 듣는 다는 점 등이 단점으로 지적됐지만 이를 극복하면서 사용성이 더 넓어진 것이다.최근 KT는 'AI 케어 서비스'를 출시했다. 이는 AI 스피커인 '기가지니 LTE2'를 기반으로 응급상황은 물론 말동무까지 케어해주는 서비스다. 어르신들이 많이 사용한다는 점에서 사투리 인식도 가능하다고 설명했다. KT 측은 해당 서비스에 대해 "사투리도 정확히 알아 듣는다. 정확도는 약 93%"라고 언급했다.
AI와의 자연스러운 대화는 언제쯤 이뤄질까
IT업계는 AI와의 자연스러운 대화를 위해 계속해서 연구개발을 진행중이다.구글은 이번 브리핑에서 이용자가 발화를 멈추는 순간까지도 AI가 인식할 수 있도록 하는 음성 인식 모델을 연구하고 있다고 밝혔다. 예를 들어, 일상 대화를 하다가 잠시 '음...' 이라고 말하면서 말하기를 가끔 멈출 때가 있는데, AI가 그 순간을 발화자의 뉘앙스로 판별해 말하기를 중단한 게 아니라는 걸 알아챌 수 있게 한다는 뜻이다.구글 측은 "기기 내 머신러닝이 초고속으로 작업을 처리하도록 설계된 칩을 통해 실시간 대화의 유동성에 점점 더 가까워지고 있다"며 "갑작스러운 대화 방해 등에 오작동하지 않고 인간 언어의 불완전성을 훨씬 더 원활하게 이해할 수 있다"고 설명했다.
국내에서도 '진짜 사람처럼 말하는' 대화형 AI 개발이 한창 진행 중이다. SK텔레콤은 올해 상반기 중 사람처럼 감성적으로 응대하고 서비스를 추천하는 AI 서비스인 'AI 에이전트'를 선보일 것으로 알려졌다. 향후 AI에이전트는 메타버스와 연계돼 가상세계에서 자신을 대신하는 캐릭터로까지 진화할 것이라고 회사 측은 소개한 바 있다.
네이버도 자체 개발한 초거대 AI 하이퍼클로바를 기반으로 '아바타 챗봇'을 고도화하고 있다. 이는 사람처럼 대화의 맥락을 이해하고 자연스럽게 대화하는 것은 물론, 감정 표현 등 비언어적 소통까지 할 수 있도록 한 점이 특징이다.
최수진 한경닷컴 기자 naive@hankyung.com