'카톡대화 전면 폐기' 언급 없는 '이루다' 개발사의 사과문
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
제3자 동의 "내부적으로 문제 없다고 판단"
데이터의 해외 유출 가능성도 점처져
업계 "정부 과한 법규제 우려"
데이터의 해외 유출 가능성도 점처져
업계 "정부 과한 법규제 우려"
개인정보 유출 논란에 휩싸인 인공지능(AI) 챗봇(채팅로봇) ‘이루다’ 개발사 스캐터랩이 부실한 해명으로 도마 위에 오르고 있다. 앞서 스캐터랩은 자사 서비스인 ‘연애의 과학’ 등 앱에서 카카오톡 대화 내용을 수집해왔고 이를 이루다의 학습용 데이터로 이용한 것으로 드러났다. 서비스 이용자들과 시민단체들이 요구한 데이터 전면 폐기에 대한 언급은 없어 갈등은 더욱 커질 것으로 예상된다.
14일 정보기술(IT) 업계에 따르면 스캐터랩은 전날인 13일 밤 사과문과 추가 입장문을 발표했다. 이들은 입장문을 통해 이용자들 중 AI 학습에 데이터가 활용되기를 원하지 않는 사람들의 카카오톡 대화는 개인정보보호법에 따라 데이터베이스(DB)에서 삭제하겠다고 밝혔으나 데이터 전량 폐기를 약속하진 않았다. 대화 상대방인 제3자 동의 문제에 대해 회사 측은 “대화의 당사자 중 한 명이 개인정보 수집·이용에 동의해 자발적으로 대화 내용을 올린 것이므로 내부적으로 문제가 없을 것으로 판단했다”고 했다.
깃허브를 통해 유출된 개인정보 데이터 등 문제에 대해서 스캐터랩 측은 “개발팀이 2019년에 오픈소스 공유 플랫폼 깃허브에 공개한 내용에 내부 테스트 샘플(대화 데이터)이 포함된 사실을 확인했다”며 “데이터 관리에 더 신중하지 못했고, 일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과한다”고 해명했다. 이어 “해당 깃허브 게시물은 즉시 비공개 처리했다”며 “대화를 나눈 사람들의 관계나 생활 반경이 추정될 여지는 전혀 없다”고 덧붙였다.
그러나 스캐터랩의 게시물을 포크(공유)한 깃허브 게시물에 대해 개발자 커뮤니티에서는 우려의 목소리가 나왔다. 글로벌 오픈소스 플랫폼인 깃허브 특성상 스캐터랩의 게시물을 포크한 게시물과 여기서 다운로드된 데이터, 인공신경망 모델 등이 지속해서 유포 중인 것으로 파악되고 있다. 이미 깃허브 외부 크롤러 봇(온라인상에서 자료를 자동 수집·보존하는 프로그램)에 의해 국내외로 유출됐을 가능성도 점쳐지고 있다. 스캐터랩 관계자는 “원 게시물뿐만 아니라 포크된 게시물에 대해서도 깃허브 측에 삭제 요청을 했다”고 전했다.
연애의 과학 이용자들은 스캐터랩이 대화 데이터를 모두 파기해야 한다고 재차 주장하고 있다. 전날 참여연대 등 시민단체들도 “개인정보보호법에 따르면 해당 대화 내용 데이터 수집과 이용에 문제가 있다며 “개인정보 수집과 처리 과정이 불법적인 것으로 드러나면 정보 주체의 요청 없이도 해당 개인정보를 바탕으로 만들어진 챗봇 모델과 데이터를 폐기해야 한다”고 주장했다.
IT 업계에서는 스캐터랩의 사례를 반면교사로 삼아야 한다는 분석이 나온다. 양상환 네이버 D2SF 리더는 “‘이루다 사건’은 AI 산업 발전의 성장통이 될 것”이라며 “산업 초기에 프라이버시 문제가 제기돼 오히려 다행이라”고 했다. 이어 “모든 알고리즘의 투명성을 요구하는 것은 현실적이지도, 바람직하지도 않다”며 “스타트업은 앞으로 데이터 확보와 활용에 있어 내부에서 잘 제어할 수 있는 시스템을 구축하는 것이 중요하다”고 말했다.
한편 이번 사건이 업계에 끼칠 악영향을 염려하는 목소리도 나온다. 불필요한 정부 개입이 생길 수 있다는 이유에서다. 이미 이날 방송통신위원회는 이용자에게 피해를 야기한 AI 서비스에 책임 소재를 물을 수 있도록 기존의 법체계를 정비하겠다고 밝혔다. 한 업계 관계자는 “스캐터랩이 대량의 데이터를 제대로 처리할 역량이 부족했던 것으로 보인다”라며 “정부가 자율적으로 발전하던 산업을 과한 법규제로 구속하는 것은 득보다 실이 클 것”이라고 지적했다.
김남영 기자 nykim@hankyung.com
14일 정보기술(IT) 업계에 따르면 스캐터랩은 전날인 13일 밤 사과문과 추가 입장문을 발표했다. 이들은 입장문을 통해 이용자들 중 AI 학습에 데이터가 활용되기를 원하지 않는 사람들의 카카오톡 대화는 개인정보보호법에 따라 데이터베이스(DB)에서 삭제하겠다고 밝혔으나 데이터 전량 폐기를 약속하진 않았다. 대화 상대방인 제3자 동의 문제에 대해 회사 측은 “대화의 당사자 중 한 명이 개인정보 수집·이용에 동의해 자발적으로 대화 내용을 올린 것이므로 내부적으로 문제가 없을 것으로 판단했다”고 했다.
깃허브를 통해 유출된 개인정보 데이터 등 문제에 대해서 스캐터랩 측은 “개발팀이 2019년에 오픈소스 공유 플랫폼 깃허브에 공개한 내용에 내부 테스트 샘플(대화 데이터)이 포함된 사실을 확인했다”며 “데이터 관리에 더 신중하지 못했고, 일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과한다”고 해명했다. 이어 “해당 깃허브 게시물은 즉시 비공개 처리했다”며 “대화를 나눈 사람들의 관계나 생활 반경이 추정될 여지는 전혀 없다”고 덧붙였다.
그러나 스캐터랩의 게시물을 포크(공유)한 깃허브 게시물에 대해 개발자 커뮤니티에서는 우려의 목소리가 나왔다. 글로벌 오픈소스 플랫폼인 깃허브 특성상 스캐터랩의 게시물을 포크한 게시물과 여기서 다운로드된 데이터, 인공신경망 모델 등이 지속해서 유포 중인 것으로 파악되고 있다. 이미 깃허브 외부 크롤러 봇(온라인상에서 자료를 자동 수집·보존하는 프로그램)에 의해 국내외로 유출됐을 가능성도 점쳐지고 있다. 스캐터랩 관계자는 “원 게시물뿐만 아니라 포크된 게시물에 대해서도 깃허브 측에 삭제 요청을 했다”고 전했다.
연애의 과학 이용자들은 스캐터랩이 대화 데이터를 모두 파기해야 한다고 재차 주장하고 있다. 전날 참여연대 등 시민단체들도 “개인정보보호법에 따르면 해당 대화 내용 데이터 수집과 이용에 문제가 있다며 “개인정보 수집과 처리 과정이 불법적인 것으로 드러나면 정보 주체의 요청 없이도 해당 개인정보를 바탕으로 만들어진 챗봇 모델과 데이터를 폐기해야 한다”고 주장했다.
IT 업계에서는 스캐터랩의 사례를 반면교사로 삼아야 한다는 분석이 나온다. 양상환 네이버 D2SF 리더는 “‘이루다 사건’은 AI 산업 발전의 성장통이 될 것”이라며 “산업 초기에 프라이버시 문제가 제기돼 오히려 다행이라”고 했다. 이어 “모든 알고리즘의 투명성을 요구하는 것은 현실적이지도, 바람직하지도 않다”며 “스타트업은 앞으로 데이터 확보와 활용에 있어 내부에서 잘 제어할 수 있는 시스템을 구축하는 것이 중요하다”고 말했다.
한편 이번 사건이 업계에 끼칠 악영향을 염려하는 목소리도 나온다. 불필요한 정부 개입이 생길 수 있다는 이유에서다. 이미 이날 방송통신위원회는 이용자에게 피해를 야기한 AI 서비스에 책임 소재를 물을 수 있도록 기존의 법체계를 정비하겠다고 밝혔다. 한 업계 관계자는 “스캐터랩이 대량의 데이터를 제대로 처리할 역량이 부족했던 것으로 보인다”라며 “정부가 자율적으로 발전하던 산업을 과한 법규제로 구속하는 것은 득보다 실이 클 것”이라고 지적했다.
김남영 기자 nykim@hankyung.com