망자와의 대화 … AI가 디지털 환생 시대 여나

2013년 2월, 영국의 TV 드라마 ‘블랙미러’에서 부인이 교통사고로 죽은 남편과 첨단기술로 소통하는 이야기가 방영됐다. 공상과학 영화에서나 나올 법한 이런 기술을 지난 연말 마이크로소프트(MS)가 특허를 얻었다. 2017년 4월 출원한 이 특허의 정확한 명칭은 ‘특정인과의 대화형 챗봇 만들기’다. 이 특허에 대해 더 알아보기 전에 드라마 이야기를 조금 더 해보자. 그 드라마에서는 부인이 여러 단계를 거쳐서 죽은 남편에게 접근한다.

텍스트 채팅에서 3차원 로봇까지 단계별 진화

첫 번째 단계는 죽은 남편과의 단순한 텍스트 채팅이다. 남편의 SNS 계정에 메시지를 보내니 즉시 답이 온다. 채팅 스타일이 남편과 똑같다. 남편이 여행을 떠났을 때 채팅했던 것처럼 은밀한 이야기도 나눈다. 이는 서비스 회사에서 유료로 제공하는 것이다.

그러나 곧 단순한 텍스트 채팅으로는 성에 차지 않는다. 두 번째 단계는 남편 목소리의 챗봇과 음성으로 대화하는 것이다. 남편의 존재를 더욱 사실적으로 느낄 수 있다. 이런 서비스는 남편이 인터넷에 남긴 음성 데이터를 학습해 만들었다. 음성 채팅 서비스의 가격은 텍스트 채팅보다 조금 더 비싸다.

세 번째는 남편의 모습을 아바타로 보는 것이다. 화상을 통해 남편의 모습과 행동을 보면서 대화할 수 있다. 서비스 회사는 부인이 보낸 여러 장의 사진을 이용해 남편의 3차원(3D) 모델과 동작 모델을 구현했다. 자연스럽게 대화하는 모습의 동영상은 남편을 더 사실적으로 느끼게 한다. 이런 서비스의 비용이 높아지는 것은 당연하다

네 번째는 남편의 아바타를 3차원 로봇으로 제작하는 것이다. 남편의 몸 치수를 제공하니 서비스 회사에서 남편 형상의 로봇을 배달한다. 로봇은 집에서 부인과 일상생활을 함께 한다. 심지어 잠자리도 같이 한다. 물론 이 로봇 서비스는 매우 비싸다.

마지막 단계는 완전 공상 속의 이야기다. 사람과 똑같이 행동하는 3차원 로봇은 먼 훗날 이야기다. 그러나 앞 세 단계의 서비스 시나리오는 현재 기술로도 충분히 가능하거나 매우 가까이 와 있다. 사용자가 얼마나 서비스를 ‘사실적으로’ 느끼는지가 문제다.

챗봇이란 텍스트나 음성 입력을 사용해 인간의 대화를 흉내 내는 프로그램이다. 자연어 대화 능력으로 고객을 응대하거나 정보 획득 같은 특정 작업에 활용된다. 회사에서 휴가 신청이나 사무실 예약을 챗봇에게 의뢰할 수 있고, 해야 할 일을 기억해 뒀다가 적절한 때 알려주게 할 수도 있다. 이런 목적의 챗봇도 나름대로 개성을 가질 수 있지만 특정인을 흉내 낼 필요는 없다. 모든 사용자와 일반적이고 공통적인 대화를 이끌어 가기 때문에 여러 사용자로부터 대화 샘플을 모아 훈련시켜 개발한다.

MS의 이번 특허는 일반적인 대화형 챗봇 기술이 아니라 특정인의 특성을 흉내 내서 대화하는 기술에 관한 것이다. 특정인이란 위의 드라마처럼 죽은 남편일 수도 있고, 유명 연예인, 역사적 영웅 등 현재나 과거의 인물일 수 있다. 또 챗봇을 훈련시키는 자신일 수도 있고, 자기 인생의 특정 단계로 한정할 수도 있다. 특정인의 대화를 흉내 내기 위해서는 그 특정인에 대한 많은 데이터가 필요하다. SNS, 블로그, 카페 등 인터넷상에 흩어져 있는 소셜데이터로부터 특정인에 관한 데이터를 모으는 것이 관건이다. 이미지나 음성 데이터, 이메일, 문자메시지, 인공지능(AI) 스피커와의 대화, 소셜미디어 게시물, 서면 편지, 사용자 프로필 정보, 행동 데이터, 거래 데이터, 위치 데이터 등을 모은다.

특정인 데이터 모으는 게 관건

이 특허 기술의 핵심은 개성색인(personality index)의 사용에 있다. 대화 데이터로부터 특정인의 개성색인을 생성하고, 그 개성색인을 이용해 챗봇이 개인화된 대화를 하도록 훈련한다. 개성색인에는 말투, 사용하는 어휘, 목소리, 대화 길이와 복잡도, 일관성 등의 대화 특성이 포함된다. 또 그 사람의 사상이나 취미 등의 행동 특성과 나이, 성별, 교육 정도, 직업, 수입 등의 인구통계학적 정보도 이용한다.

이 특허 문서는 개성색인의 생성과 이를 이용한 챗봇 훈련에 다양한 방법이 사용될 수 있다고 서술한다. 대부분 특허 문서가 그렇지만 청구 범위를 넓게 하기 위해 포괄적인 표현이 많다. 따라서 구체성이 없다. 개성색인을 만들기 위해 소셜데이터의 이러저러한 정보를 사용해야 한다는 주장에는 동의하겠지만 그것을 어떻게 생성하고 훈련에서 어떻게 쓰이는지 설명이 없어 알 수가 없다. 텍스트 대화라고 하더라도 고객에게 특정인이라고 사실감을 느끼게 하는 데는 상당한 노력이 필요할 것인데 현재의 대화 기술 수준은 미리 결정해 놓은 틀 안에서 패턴에 따른 반응만 가능하다. 여러 번 대화를 주고받는 데 제한이 있다.

또 개성색인을 감안한 목소리 녹음으로 사실적인 음성 대화를 생성할 수 있고, 얼굴인식 알고리즘을 통한 이미지와 비디오로 그 사람의 2차원 영상이나 3차원 모델을 만들 수 있다고 주장한다. 그러나 이를 구축하는 데 대한 구체적인 설명은 없다. 발성과 모습을 사실적으로 구현하는 것, 그 자체가 매우 어려운 작업이다. 사실감이 떨어지는 애니메이션 영상이나 장난감 같은 3차원 모델은 오히려 몰입을 저해할 것이다.

개인정보 보호 등 사회적 이슈 고려해야

MS 특허 문서를 보면 무엇을 만들고 싶다는 의지는 보이지만 기술적 구체성은 없다. 그래서 비즈니스모델 특허처럼 보인다. MS는 이 기술로 서비스를 내놓을 계획은 없다고 했다. 당장 사실감 있게 특정인을 흉내 내는 챗봇을 만드는 것은 MS라 할지라도 쉬운 일이 아닐 것이다. 일생의 어느 한순간의 모습과 음성 데이터로부터 젊었을 때와 나이 먹었을 때의 모습과 목소리를 생성해야 하는데 얼마나 사실적으로 구현할 수 있을까?

이 특허는 기술적 이슈보다는 이런 기술이 미치는 사회적 영향이 더 관심거리다. 이 같은 서비스를 사실적으로 제공하기 위해서는 서비스 회사에서 매우 많은 개인정보를 확보해야 할 것이다. 특정인이 썼던 글만이 아니라 그의 친구들이 한 말, 그에 대한 반응, 심지어는 부부간의 은밀한 대화, 건강 상태 정보 등이 필요하다. 사망한 사람의 개인정보 보호 이슈 문제도 제기된다. 사망자 개인정보의 공개 여부를 결정하는 권한은 누가 갖고 있는가? 상속인일까? 사망했더라도 존엄을 지켜주기 위해 비밀로 해야 할 사항이 많을 것이다. 이런저런 이유로 사망한 뒤 당사자의 아바타를 만드는 것은 어려워 보인다. 그러나 살아있는 동안에 자신의 디지털 복제를 하는 것은 현실성이 있다. 래퍼 가수 윌아이엠(will.i.am)은 자신의 디지털 카피, 즉 아바타를 제작하는 작업을 시작했다.

위의 드라마처럼 진짜가 아니라는 것을 알면서도 죽은 사람과 대화하는 것은 유혹적이다. 그러나 죽은 사람과 교감하게 하는 것이 살아남은 사람에게 행복을 제공할까? 그 드라마 속의 로봇은 지금 기술로는 상상할 수 없을 정도로 우수한 기능을 갖췄음에도, 부인은 그 로봇과 같이 생활하는 것을 곧 불편하게 느낀다. 로봇에게 절벽에서 뛰어내려 없어지라고 절규한다. 결국은 로봇을 가끔 쓰는 가재도구처럼 다락에 올려놓는다.

예전에는 상상할 수 없었던 여러 감성적인 서비스를 AI 기술로 개발할 수 있는 능력이 생겼다. 그러나 AI는 양날의 칼이다. 이 드라마는 서비스의 효용성에 대해 깊이 있게 고민해야 한다는 점을 일깨워준다. 물론 MS의 기술은 죽은 가족과 교감하는 것 이상의 다양한 용도로 사용될 수 있을 것이다. 이순신 장군 아바타와 임진왜란에 대해 대화를 나누는 것, 멋지지 않을까?

■ 디지털 휴먼을 향한 경주
CES서 선보인 LG '김래아'…무대서 신곡 부른 故 김광석

사망자의 아바타를 사후에 제작하는 것은 많은 윤리적 이슈를 불러오지만 개인의 아바타를 만드는, 즉 스스로 디지털 복제하는 것에는 윤리적 문제가 없어 보인다. 필요한 만큼 자신의 데이터를 제공할 수 있기 때문에 제작도 용이하다. 유명한 가수가 자신의 아바타를 통해 팬들과 대화하면서 노래도 불러주는 시나리오는 흥미롭다.

최근 우리나라에서도 예전에 사망한 가수가 신곡을 부르고, 현재 활동하는 가수와 함께 이중창을 부르는 모습이 방송됐다. 이런 이벤트의 단골손님은 요절한 가수 김광석이다. 몇 년 전에는 홀로그램을 이용해 그가 무대 위에서 공연하는 모습을 보여주면서 녹음된 옛 노래를 틀어 준 것이었다.

이번에는 다르다. 김광석이 죽은 이후에 나온 새 노래를 부르는 것으로 진화했다. 이는 텍스트를 자연스러운 음성으로 변환하는 기술이 확장된 것이다. 특정인의 목소리 특색을 살려서 음성을 구현해내는 기술은 잘 알려져 있으나, 노래에 나타나는 감정을 표현하는 데는 어려움이 있었다. 국내 한 스타트업이 GAN(적대적 생성네트워크) 기술을 이용해 감정 표현이 가능한, 그래서 특정 가수로 느껴지도록 하는 한국어 가창 음성 합성 기술을 개발했다.

특정인의 동영상을 제작하는 데도 GAN 기술이 이용된다. 특정인의 사진과 동영상을 모아 훈련시켜 자연스럽고 생동감 있는 표정과 동작의 동영상을 제작할 수 있다. 윤리적 논란이 큰 딥페이크 기술이 이 같은 목적으로 쓰일 수 있다. 사실적 고해상도의 3차원(3D) 모델은 수백 대의 카메라와 3차원 스캐너로 얼굴과 몸을 스캔해 제작한다. 이렇게 만든 3차원 모델을 기반으로 자연스러운 표정과 움직이는 모습 등을 생성한다. 완성된 결과물을 동영상으로 보여주거나 가상현실 기술을 이용해 사실감을 높인다.

사실적인 3차원 아바타 로봇이 개발되기까지는 시간이 걸릴 것이다. 몇 년 전 소피아라는 대화형 로봇이 선보였지만 동작이 제한적이고, 사실감도 많이 떨어졌다. 기계 장치의 진화는 소프트웨어보다 늦다.

디지털 휴먼은 특정인을 흉내 내는 기술의 결정판이다. 특정인을 흉내 내는 대화 기술은 물론, 음성 생성기술, 3차원 모델 생성기술, 동작 생성기술, 그래픽 생성기술 등이 필요하다. 이렇게 제작된 디지털 휴먼에 특정 분야의 지식을 적용하고, 특정 작업을 수행하도록 구성해 서비스에 배치한다. 최근 열린 CES 2021에서도 LG는 ‘김래아’라는 디지털 휴먼으로 동영상 프레젠테이션을 진행했다. 우리는 곧 특정인을 닮은 디지털 휴먼을 여기저기서 만나게 될 것이다.