'AI챗봇' 이루다 개발사 대표 "걸림돌 될까 고민 깊어"[김주완의 어쩌다IT]
정부가 지난달 인공지능(AI) 챗봇 ‘이루다’ 개발업체에 명확한 동의 없이 개인정보를 무단 사용했다며 1억원이 넘는 벌금을 부과했습니다. 개인정보보호위원회는 이루다를 개발한 스캐터랩이 자사 앱 서비스인 '텍스트앳'과 '연애의 과학'에서 수집한 이용자 60만여명의 카카오톡 대화 문장 94억건을 챗봇 서비스 이루다의 개발·운영에 이용하는 과정에서 정보 주체가 명확히 인지할 수 있도록 알리고 동의를 받지 않은 것으로 판단했습니다.

조사 결과 스캐터랩은 카카오톡 대화문장을 이루다의 AI 모델 개발을 위한 알고리즘 학습에 이용하면서 일부 대화에 포함된 이름, 휴대전화 번호, 주소 등 개인정보를 삭제하거나 암호화하는 조치를 하지 않았습니다. 개인정보위는 스캐터랩이 법정대리인 동의 없이 14세 미만 아동의 개인정보를 수집한 행위, 성생활 등에 관한 정보를 처리하면서 별도 동의를 받지 않은 행위, 회원 탈퇴자나 1년 이상 서비스 미사용자의 개인정보 미파기 등에 대해서도 모두 법 위반으로 판단했습니다.

정부의 이번 조치는 AI 기술을 활용하는 기업의 개인정보 처리 관행에 대한 첫 번째 제재라서 업계의 관심도 많았습니다. 제재 결과에 대해 논란도 컸습니다. 일부 스타트업계와 정보기술(IT)업계에서는 AI 분야의 발전을 막을 수 있는 과도한 처벌이라고 주장했습니다. 반면 솜방망이 처벌이라는 비판도 나왔습니다. 1억원 수준의 처벌이면 일부 기업들은 개인정보를 제대로 보호하지 않고 남용할 것이라는 의견입니다.
'AI챗봇' 이루다 개발사 대표 "걸림돌 될까 고민 깊어"[김주완의 어쩌다IT]
스캐터랩에서는 이번 논란에 대해서 어떻게 생각하고 있을까요. 김종윤 스캐터랩 대표가 지난달 28일 개인정보보호위원회 전체회의에서 참석해서 회사의 입장을 직접 설명했습니다. 그 내용이 최근에 공개됐습니다. 그는 "스타트업이라는 것이 만능의 무슨 변명이 될 수는 없다고 생각한다"며 "그렇지만 30명 남짓 되는 스타트업임에도 불구하고 비식별 가이드나 이런 부분을 최대한 검토를 했다"고 강조했습니다. 이어 "학습용 데이터베이스(DB)에서 비식별화 작업을 한다거나 이루다 답변 DB는 회사가 정말 수개월에 걸쳐서 어떠한 개인정보도 없어야 한다는 사명을 가지고 비식별화를 했다"고 덧붙였습니다.

앞으로의 다짐도 밝혔습니다. 김 대표는 "개인정보 보호와 AI 개발이라는 이 두 마리 토끼를 어떻게 같이 잡을 것이냐는 고민을 훨씬 더 깊은 수준으로 할 수 있게 된 계기였다"며 "이것을 달성하기 위해서 기술적인 개선, 절차적인 개선, 프로세스 내부의 어떤 권한이나 권한 체계에 대한 개선, 이런 다방면으로 정말 이 분야에서 이 정도로 할 수 있다는 것을 보여드리기 위해서 정말 많은 노력을 하고 있다"고 설명했습니다.

AI 서비스 개발의 어려움에 대해서도 토로했습니다. 그는 "(AI가) 아직 가능성이 많기 때문에 처음부터 너무 엄격한 규제와 엄격한 해석을 하게 되면 앞으로 실현될 수 있는 가능성에도 많은 문제가 생길 수도 있다"고 주장했습니다.

마지막으로 그는 "AI는 이제 시작하는 초기단계 기술이라고 생각하다"며 "이럴 때일수록 광범위한 규제보다는 좀 더 토론과 합의를 통해서 함께 사례를 만들어나가고 저희도 기여를 많이 하고 싶다"고 밝혔습니다.

업계에서는 김 대표의 진술에 대해서도 의견이 엇갈리고 있습니다. 국내 AI 서비스 개발의 어려움을 제대로 지적했다는 의견과 '이루다 사태'의 심각성을 아직 모르고 있다는 지적이 맞섭니다. 올바른 판단을 돕기 위해 전문을 게재합니다.

< 개인정보보호위원회에 참석한 김 대표의 최후 진술 전문 >

먼저 저희가 딥러닝 학습을 하는 과정 그리고 이루다 서비스를 하는 과정에서 개인정보 관련해서 많은 이슈를 만들고 물의의 일으킨 점을 정말 진심으로 죄송하다는 말씀을 드립니다. 아까 백대용 위원님께서 말씀해 주셨듯이 저희가 다소 개인정보 보호법에 대한 이해나 대비가 부족했던 점도 책임을 통감하고 있습니다. 저희가 스타트업이라는 것이 만능의 무슨 변명이 될 수는 없다고 생각하고요.

그렇지만 저희가 30명 남짓 되는 스타트업임에도 불구하고 비식별 가이드나 이런 부분을 최대한 검토를 해서 학습용 DB에서 비식별화 작업을 한다거나 이루다 답변 DB는 저희가 정말 수개월에 걸쳐서 어떠한 개인정보도 없어야 된다는 사명을 가지고 비식별화 를 했다는 점을 고려해 주셨으면 좋겠습니다.

또 이희정 위원님께서 말씀해 주신 것처럼 이번 논란을 저희는 하나의 계기라고 생각합니다. 그래서 개인정보 보호와 AI 개발이라는 이 두 마리 토끼를 어떻게 같이 잡을 것이냐는 고민을 저희도 훨씬 더 깊은 수준으로 할 수 있게 된 계기였다고 생각하고요. 이것을 달성하기 위해서 저희는 기술적인 개선, 절차적인 개선, 프로세스 내부의 어떤 권한이나 권한 체계에 대한 개선, 이런 다방면으로 정말 이 분야에서 이 정도로 할 수 있다는 것을 보여드리기 위해서 정말 많은 노력을 하고 있고 모범적인 사례가 될 수 있도록 노력할 것임을 다시 한번 말씀드립니다

AI나 딥러닝이라는 것이 어려운 주제인 것 같습니다. 앞으로 저는 인류 역사를 봤을 때 불의 발견이나 바퀴의 발견만큼 큰 전환점이 될 것으로 저는 개인적으로 믿고 있는데요. 이렇게 큰 패러다임 체인지가 있을 때마다 사실 기존 체계와 갈등이 생기는 부분이 없을 수는 없다고 생각합니다. 항상 뭔가 갈등을 낳게 되는데, 가장 첫 번째로 생각할 수 있는 방법은 기존 체계를 엄격하게 해석해서 통제해나가는 사례를 만들어나가는 방법이 있겠지만, 사실 이것이 앞으로 어떤 식으로 발전하고 어느 정도 가능해지고 어떻게 활용될 지가 아직 가능성이 많기 때문에 처음부터 너무 엄격한 규제와 엄격한 해석을 하게 되면 앞으로 실현될 수 있는 가능성에도 많은 문제가 생길 수도 있다고 생각합니다.

예를 들면 목적 외 이용이나 이런 부분 같은 경우에도 지금 현재 AI 트렌드는 엄청나게 많은 대량의 데이터를 학습하는 것이 트렌드입니다. 엄청나게 많다는 것은 수백기가 단위, 테라 단위의 데이터를 말씀드리는 것인데요. 그렇다 보니까 아까 말씀드린 것처럼 그 데이터 내 개인정보가 얼마나 있고 이것을 어떻게 비식별 할 것인가가 어려운 문제로 남아 있고, 사실 이렇게 많은 데이터를 AI 데이터 학습을 명시해서 모은다는 것은 현실적으로 많은 어려움이 있을 수밖에 없다고 생각합니다. 이런 데이터는 자연스럽게 생길 수밖에 없는 정도의 데이터의 양이기 때문입니다. 그리고 또 활용하는 측면에 있어서도 AI가 활용될 수 있는 분야가 넓기 때문에 이런 부분이 엄격하게 됐을 때 많은 가능성이 제한되는 부분이 있을까, 그리고 저희가 그런 한국 AI 발전에 있어서 걸림돌을 만드는 계기가 되는 것 아닐까, 이런 고민도 많습니다.

어쨌든 저는 AI나 딥러닝은 매우 지금 이제 시작하는 초기단계 기술이라고 생각하고요. 이럴 때일수록 광범위한 규제보다는 좀 더 토론과 합의를 통해서 함께 사례를 만들어나가는 저희도 거기에 기여를 많이 하고 싶고요. 그런 것이 좋다고 생각합니다. 이런 여러 점들을 고려해 주셔서 현명한 판단 내려주시기를 부탁드리겠습니다. 감사합니다.

김주완 기자 kjwan@hankyung.com