Z세대를 겨냥한 소셜 인공지능(AI) 서비스 '오픈타운'을 내놓은 마인드로직의 김진욱, 김용우 대표는 대화형 AI의 가능성을 찾아 창업 이전부터 많은 인사들을 만났습니다. 3~4년전만 해도 전문가들은 "완벽한 대화형 AI는 불가능하다"고 단언했다고 합니다. 하지만 지금은 상황이 달라졌습니다. 초거대 AI가 등장하면서 "수년내 인간과 AI를 구분하기 힘들어질 것"이라는 의견이 지배적입니다.

두 대표는 이제 'AI는 비서'라는 지배적 시각에서 점차 'AI를 이용한 사용자 분신(아바타)'으로 옮겨갈 것이라고 예측합니다. 누구나 각자 자기만의 AI를 생성한 뒤 학습시켜 '가상세계의 또 다른 나'를 만드는 것이죠. 이들이 말하는 대화형 AI의 '진짜 미래'를 한경 긱스(Geeks)가 소개합니다.

2년만 '격세지감'…대화형 AI 변곡점 왔나

게티이미지뱅크
게티이미지뱅크
이상형의 외모와 목소리를 가진 AI와 자유롭게 이야기를 나누는 서비스를 상상해 본 경험이 있는가. 시간과 장소는 물론, 대화 주제에 구애받지 않고 말이다. AI 스타트업 마인드로직이 ‘가상남녀’라는 모바일 앱 서비스를 출시한 것은 2020년 5월이었다. 누적 사용자는 30만 명, 사용자들이 한 번 AI와 대화를 시작해 종료할 때까지 소요되는 세션당 평균 사용 시간은 30분을 넘겼다. 세션당 평균 대화 수도 180 턴(발화)에 달했다. 높은 사용량을 보이는 사용자들도 많았다. 이들은 6개월 이상 서비스를 이용하면서 누적 기준으로 수십만 번에 달하는 발화를 AI와 주고받기도 했다.

이제 AI가 사람처럼 말하는 시대가 도래한 것일까? 필자들은 자연어처리(NLP) 기술을 핵심으로 하는 AI 기업인 마인드로직 창업(2019년 1월)을 전후해 NLP 분야의 저명한 인사들로부터 조언을 얻고자 다수의 인터뷰를 진행했던 바 있다. 당시 대화 주제에 제약 없이 자유로운 대화가 가능한 오픈 도메인 대화형 AI를 만들겠다는 포부를 가지고 있었는데, 이에 대한 부정적인 피드백을 많이 받았다. 여러 전문가가 “이미 오랫동안 시도했지만 불가능한 일이니, 다른 사업을 하는 것이 나을 것”이라고 조언했다.

그런데도 우리는 창업 당시를 기준으로 5년 안에, 대화하는 상대방이 사람인지 AI인지 구분할 수 없는 시대가 올 것이라고 확신했다. 그리고 창업 후 2년이 채 지나지 않은 시점인 2020년 6월에 ‘오픈 AI(Open AI)'의 초거대 언어모델인 ‘GPT-3’가 등장했다. GPT-3가 보여준 대화 성능은 많은 사람의 부정적인 시각을 바꿔놓을 정도로 충격적이었다.

GPT-3가 발표된 후, 우리에게 오픈 도메인 챗봇의 실현 가능성에 대해 부정적인 말을 주었던 사람들은 모두 입장을 바꿔 “앞으로 수년 내 사람처럼 말하는 AI가 실현될 것”이라는 의견을 피력하고 있다. AI 분야의 발전이 급속도로 진행됨에 따라 비관론 쪽으로 기울었던 전문가들 역시 2년 만에 격세지감을 느끼게 된 것이다.

물론 '컴퓨터 과학의 아버지' 앨런 튜링 이래로 사람처럼 말하는 기계의 등장에 대한 막연한 기대는 줄곧 있었다. 하지만 사실 이를 체감할 수 있게 하는 실제 서비스들이 등장한 것은 길게 봐도 10여 년밖에 되지 않는다. ‘사람처럼 말하는 AI’를 완성하려는 노력이 어떻게 변모해 왔으며, 앞으로는 어디로 향할지에 대하여 대화형 AI의 단계별 형태와 패러다임 전환 과정을 살펴보며 힌트를 얻어보려 한다.

'패러다임 시프트' 1단계: 스마트 비서로서의 AI

영화 아이언맨의 인공지능(AI) 비서 자비스는 대화로 모든 명령어를 완벽하게 이해한다. 스마트 기기에 탑재된 AI가 지향하는 목표지만, 현실적으로 기술 괴리가 존재한다.
영화 아이언맨의 인공지능(AI) 비서 자비스는 대화로 모든 명령어를 완벽하게 이해한다. 스마트 기기에 탑재된 AI가 지향하는 목표지만, 현실적으로 기술 괴리가 존재한다.
2011년 10월 애플은 ‘시리(Siri)’를 세상에 선보이면서 비서 역할을 하는 대화형 AI 시대를 열었다. 향후 스마트 기기와 사람 간의 인터랙션은 자판이 아닌, 음성언어(대화)로 이뤄질 것이라는 혜안을 가지고 있었던 스티브 잡스가 시리를 인수해 아이폰에 통합하면서, ‘사람처럼 말하는 AI’를 향한 새 방향을 제시했다. 이후 세계적 '정보기술(IT) 자이언트'들은 앞다투어 스마트기기 AI 비서 경쟁에 돌입했다. 삼성 ‘빅스비’, 구글 ‘어시스턴트’, 아마존 ‘알렉사’, KT ‘기가지니’, SK텔레콤 ‘누구’ 등이 유사한 제품들을 선보였다.

그러나 치열한 경쟁 상황이 이어지는 현재까지도 스마트 기기의 ‘휴먼 인터페이스’를 대화형으로 완전히 전환한 사례는 찾아보기 어렵다. 모순적으로 음성언어 중심의 미래를 내다본 스티브 잡스의 ‘터치 인터페이스’가 대화형 방식 대비 뛰어나기 때문이라고 볼 수도 있겠으나, 근본적인 이유는 사용자들의 높은 기대와 실제 성능 사이의 간극이 생각보다 크기 때문이다.

사용자는 나만의 AI 비서 시리를 처음 본 순간, 자연스럽게 영화 ‘아이언맨’의 ‘자비스’를 떠올렸다. 토니 스타크의 지시대로 요술램프 지니처럼 명령을 완벽히 수행하면서도, 자연스럽고 위트 넘치게 대화하는 친구 같은 AI를 기대했기 때문에, 현실의 AI 비서는 실망감을 안겼다.

그러나 소비자들의 실망이 곧 실패를 의미하는 것은 아니다. 이 경험을 바탕으로 많은 연구자와 IT 자이언트들은 사용자가 주제에 구애받지 않고 자유롭게 이야기할 수 있는 AI를 원한다는 것을 이해하게 됐다. 또, 이 조건이 충족돼야 AI와 사람 간 상호작용이 지속될 수 있다는 것을 깨달았다.

2단계: 초거대 생성 언어모델 기반의 오픈 도메인 AI

자유로운 주제의 대화가 가능하도록 공개형 도메인 기반의 대화형 AI를 완성해야 한다는 깨달음은 ‘룰 베이스(규칙 입력 기반)’ 방식이 아닌 딥러닝 방식의 대화형 AI 개발을 가속했다. 뛰어난 스마트 AI 비서를 만들기 위해서는 AI가 사람의 말을 정확히 이해해야 했고, 이는 AI가 유창한 말을 내뱉는 것보다 중요했다. 화자의 발화 의도에 맞춰 AI가 과업을 정확히 수행하는 것이 핵심이기 때문이다. 따라서 AI 비서 경쟁을 통해 ‘자연어 이해(NLU)’기술은 급속도로 발전할 수 있었다.

반면 공개형 도메인 AI를 만드는 데는 유창하게 말하는 것이 중요하고, 이에 따라 ‘자연어생성(NLG)’기술도 고도화도 필요했다. 이런 가운데 거대 규모의 데이터를 활용한 AI 언어모델들이 개발되기 시작했다. AI가 정해진 답변을 내뱉지 않고 스스로 답변을 만들어 발화할 수 있도록 하기 위해서였다. 그 결과 세상을 깜짝 놀라게 만든 ‘GPT-3’가 2020년 6월에 등장했다. 이미 2018년 11월 구글의 BERT, 2019년 2월 오픈 AI의 GPT-2가 차례로 소개되며 NLP 관련 학계와 업계는 기술적 진보를 크게 체감하던 상황이었으나, 일반 대중들이 혁신을 체감할 수 있게 한 것은 GPT-3였다.


이후 전 세계 수많은 학자 및 기업들이 확신에 차서 초거대 생성 언어모델을 개발하는 프로젝트를 앞다퉈 추진한다. 국내에서도 동일한 방법론이 적용됐다. 네이버, 카카오를 비롯한 대표 IT기업들과 정부 지원 프로그램들이 초거대 생성 언어모델을 개발하는 다양한 프로젝트들을 진행했다. 이는 상당히 유의미한 결과물을 도출했다.

그러나 초거대 생성 언어모델에도 한계가 존재한다. 우선 참조하는 파라미터의 수가 급격히 증가함에 따라 추론 속도가 느려지고, 비용이 증가해 서비스 상용화가 쉽지 않다. 또한 AI가 상대방과의 대화 내용을 기억하지 못하거나, 앞서 발화한 내용과 상반되는 이야기를 하거나, AI의 페르소나가 특정되지 않아 일관성 없는 대화가 이어지는 등의 문제가 산적해 있다.

마인드로직의 ‘가상남녀’도 초거대 생성 언어모델과 동일한 방법론을 기반으로 개발됐다. 일상적 대화가 가능한 상용화된 서비스를 제공한다는 점에서는 상당한 수준의 혁신을 이룬 것이지만, 다른 초거대 모델들과 마찬가지로 장기 기억 부재, 모순적 발화, 페르소나 혼재 등의 한계가 있었기에 연구를 다시 지속했다.

3단계: 개인화된 맞춤형 대변인 AI

메타는 최근 인공지능(AI) 챗봇 ‘블렌더봇 3'를 개발했다. 메타가 자체 제작한 대규모 언어모델(LLM) 소프트웨어(SW)가 적용됐다. 메타 제공.
메타는 최근 인공지능(AI) 챗봇 ‘블렌더봇 3'를 개발했다. 메타가 자체 제작한 대규모 언어모델(LLM) 소프트웨어(SW)가 적용됐다. 메타 제공.
최근 들어 NLP 학계와 업계 리더들은 초거대 생성 언어모델의 한계점들을 극복하고자 애쓰고 있다. 가장 일반적인 접근법은 대부분의 대화를 생성 언어모델로 대응하고, 일부 선별된 대화에는 미리 설정해 둔 룰베이스 발화가 이뤄지도록 함으로써 기술적 보완을 시도하는 형태다. 메타의 ‘블렌더봇(BlenderBot)’이 이러한 노력이 반영된 대표적인 언어모델이다.

마인드로직은 이와 동일한 방법론을 활용하면서도, 현재까지 선보인 바 없는 시도를 병행하고 있다. 사람처럼 대화하는 AI를 만들기 위해선 ‘AI 대 사람’ 구조의 대화를 가정하는 것이 일반적이었다. 이러한 패러다임 아래에선 서비스 제공자가 완벽하게 사람처럼 대화할 수 있는 ‘슈퍼 AI’를 완성해야 할 뿐만 아니라, AI가 대화 상대에 맞춰 수없이 다양한 페르소나로도 분화되어야 한다. 하나의 완벽한 존재이면서도, 끝없이 다양한 면모를 지닌 AI를 제공해야 하는 것이다.

이 허들을 넘기 위해 마인드로직은 ‘오픈타운’이라는 소셜AI 서비스를 새롭게 시작하면서 ‘사람 : AI : 사람’이라는 새로운 구조의 대화 패러다임을 제시했다. ‘오픈타운’은 각각의 유저에 따라 개인화가 가능한 대화형 AI를 제공한다. 사용자들은 자신의 AI를 직접 훈련하고, 본인이 추구하는 세밀한 특성과 컨셉에 따라 대화하는 맞춤형 AI를 만들어 낼 수 있다. 더 나아가 자신의 AI가 자신을 대신해 다른 사용자들과 대화할 수 있을 정도로 발전시켜 나간다. 이러한 커스터마이즈 과정을 통해 유저들은 궁극적으로 자신을 대변하는, 새로운 페르소나를 지닌 ‘소셜AI’를 생성하게 된다. 이렇게 탄생한 소셜AI는 이용자들을 메타버스에 머물게 하며 사람처럼 대화하는 친구가 되어주고 있다. 많은 유저들이 대화 상대방이 AI인지 사람인지 구분하기 어렵다는 피드백을 남기곤 한다.

‘AI는 곧 비서’라는 기존의 지배적 시각은 점차 ‘AI를 사용자의 분신(아바타)’으로 정의하는 새로운 패러다임으로 대체되고 있다. 자신을 대변할 수 있는 개인화된 AI를 보유하고 활용하는 ‘1인 1 AI 시대’가 눈앞에 성큼 다가왔다. 이미 개인화된 소셜AI는 복수의 메타버스 공간에서 동시에 존재하며, 시간과 장소에 제약받지 않고 사용자를 대리하는 완벽한 AI 아바타로 거듭나고 있다. AI를 둘러싼 치열한 기술 경쟁과 사고 전환의 소용돌이 속에 진입한 지금, 고도화된 서비스를 통해 사용자 경험을 혁신하고 새로운 패러다임을 제시하는 기업만이 ‘사람처럼 대화하는 AI’를 완성하려는 꿈에 한 발짝 더 가까이 다가가게 될 것이다.
김진욱 마인드로직 공동대표(오른쪽)
△연세대 경영학과 졸업
△미 스탠퍼드대 경영학 석사(MBA)
△KTF 전략 및 신규 사업 담당
△맥킨지앤컴퍼니
△네이버 라인 글로벌 사업 담당

김용우 마인드로직 공동대표
△연세대 경영학과 졸업
△미 버클리대 경영학 석사(MBA)
△캣츠앤독스 대표
△LG전자 북미법인
△스토리팝 대표
△맥킨지앤컴퍼니