[차미영의 데이터로 본 세상] 데이터, 축적과 활용 사이
입력
수정
지면A33
데이터는 ‘21세기의 원유’로 비유된다. 지문이나 동공 주위의 홍채 등 신체 데이터와 금융 데이터가 결합하면 교통카드 없이 지하철을 타고 별도의 결제수단 없이 쇼핑하는 놀라운 일이 가능해진다. 신체 데이터가 파악되면 연결된 금융계좌를 통해 결제가 이뤄지기 때문이다. 과거엔 공상과학(SF) 영화에서나 가능하다고 여겼던 일들이 이미 현실이 됐다. 중국에서다.
하지만 이들 데이터에는 양면성이 있다. 시민의 삶을 편리하게 하기 위한 데이터가 개인의 이동을 감시하고 통제하는 데 사용될 수도 있다. 중국에서는 빅데이터에 기반을 둔 사회 신용 체계(social credit system)가 작동한다. 교통 법규를 어기거나 잠옷을 입고 거리를 활보하는 등 공중도덕을 지키지 않는 경우 길거리 전광판에 얼굴과 이름이 알려져 공개 망신을 당하고, 세금 체납자는 항공기와 열차 탑승이 현장에서 거부된다고 한다.이처럼 이종(異種) 데이터의 결합은 기회와 위험 모두를 의미한다. 문제는 그 경계가 명확하지 않다는 점이다. 방대한 데이터가 모였을 때 과연 어떤 분석과 활용까지 허용할 수 있을까.
유럽연합(EU)은 의도치 않은 활용을 막기 위해 이종 데이터의 결합을 원천적으로 봉쇄했다. 이것이 2016년부터 시행된 GDPR(General Data Protection Regulations), 개인정보 보호법이다. GDPR은 개인정보의 수집·저장·구성·변경·사용·결합·삭제를 비롯한 전 범위를 다루며 인터넷 도입 이래 가장 강력하고 까다로운 규정이라 평가받는다.
GDPR에 따르면 서비스 사업자는 일상적인 데이터 처리에 필요한 시간 이상으로 데이터를 오래 보관해서는 안 되며 이를 어길 시 많은 벌금을 부과받는다. GDPR의 까다로운 규정을 이해하고 따르기 어려워 작은 규모의 인터넷 서비스들은 유럽지역 사업을 포기하기도 한다. 개인정보가 철저히 보호되는 반면 유럽에서는 유용한 데이터가 쌓이고 분석되기 어려워 인공지능(AI)의 발전 방향과 상충한다는 우려마저 있다.
하지만 코로나19 확진자 경로를 토대로 신변 노출 피해가 뒤따르기도 했다. 이태원 클럽 단순 방문자 중에도 신변 노출을 꺼리는 이가 많았고, 교인들도 신천지 관련 의심을 받을까 공개를 꺼렸다. 이는 사회 계층 간 거리를 멀게 하는 사회적 분리 현상을 가속화했다. 일부 확진자와 관련해 잘못된 신상털기 현상이 벌어지기도 했다.
논란이 불거지자 AOL은 즉각 데이터를 삭제했지만 이미 공개된 데이터는 빠른 속도로 퍼져나갔다. 결국 데이터를 공개한 직원과 당시 최고기술책임자는 해고됐으며 캘리포니아지방법원에서 이뤄진 집단소송 결과 업체의 데이터 공유로 피해를 본 사용자에게 최소 5000달러씩 보상하라는 판결이 내려졌다.
AI 분야를 선점하고자 하는 나라들은 앞으로 더욱 빠른 속도로 데이터를 축적하고 공유하며 ‘데이터 산유국’으로 떠오를 것이다. 코로나19로 ‘비대면’이 일상화된 오늘날 AI는 산업과 국가행정에 적극적으로 활용되고 있으며 당분간 데이터 경쟁은 더 치열해질 것이다. 앞으로는 누가 양질의 데이터를 축적했는지에 대한 논의보다 방대한 데이터를 어디까지 사용해도 좋을지에 대한 논의가 필요할 것이다.
차미영 < 기초과학연구원 수리 및 계산과학 연구단 CI·KAIST 전산학부 부교수 >
하지만 이들 데이터에는 양면성이 있다. 시민의 삶을 편리하게 하기 위한 데이터가 개인의 이동을 감시하고 통제하는 데 사용될 수도 있다. 중국에서는 빅데이터에 기반을 둔 사회 신용 체계(social credit system)가 작동한다. 교통 법규를 어기거나 잠옷을 입고 거리를 활보하는 등 공중도덕을 지키지 않는 경우 길거리 전광판에 얼굴과 이름이 알려져 공개 망신을 당하고, 세금 체납자는 항공기와 열차 탑승이 현장에서 거부된다고 한다.이처럼 이종(異種) 데이터의 결합은 기회와 위험 모두를 의미한다. 문제는 그 경계가 명확하지 않다는 점이다. 방대한 데이터가 모였을 때 과연 어떤 분석과 활용까지 허용할 수 있을까.
유럽연합(EU)은 의도치 않은 활용을 막기 위해 이종 데이터의 결합을 원천적으로 봉쇄했다. 이것이 2016년부터 시행된 GDPR(General Data Protection Regulations), 개인정보 보호법이다. GDPR은 개인정보의 수집·저장·구성·변경·사용·결합·삭제를 비롯한 전 범위를 다루며 인터넷 도입 이래 가장 강력하고 까다로운 규정이라 평가받는다.
GDPR에 따르면 서비스 사업자는 일상적인 데이터 처리에 필요한 시간 이상으로 데이터를 오래 보관해서는 안 되며 이를 어길 시 많은 벌금을 부과받는다. GDPR의 까다로운 규정을 이해하고 따르기 어려워 작은 규모의 인터넷 서비스들은 유럽지역 사업을 포기하기도 한다. 개인정보가 철저히 보호되는 반면 유럽에서는 유용한 데이터가 쌓이고 분석되기 어려워 인공지능(AI)의 발전 방향과 상충한다는 우려마저 있다.
AI 발전에 필요 vs 사생활 침해
이번 신종 코로나바이러스 감염증(코로나19) 사태에 한국을 비롯해 대만, 호주 같은 국가는 데이터의 기회와 위기 사이에서 균형점을 찾은 듯하다. 개인의 휴대폰 위치 정보와 신용카드 사용 명세 데이터를 결합해 확진자의 동선 및 접촉 위험자를 파악하는 정보로 활용했다. 이를 토대로 확진자가 어디에서 코로나19에 감염됐는지 추적이 가능했고, 역학조사관의 작업 시간도 효율적으로 단축할 수 있었다. 국가가 보유한 데이터를 재난 상황에 적절히 활용해 재빠르게 대처한 것이다. 어쩌면 ‘사생활 침해’로 여겨질 수 있는 데이터 활용임에도 대다수 국민은 개인 데이터가 사용될 수밖에 없는 특수한 위기상황임에 공감했고, 정부에 대한 지지도는 오히려 상승했다.하지만 코로나19 확진자 경로를 토대로 신변 노출 피해가 뒤따르기도 했다. 이태원 클럽 단순 방문자 중에도 신변 노출을 꺼리는 이가 많았고, 교인들도 신천지 관련 의심을 받을까 공개를 꺼렸다. 이는 사회 계층 간 거리를 멀게 하는 사회적 분리 현상을 가속화했다. 일부 확진자와 관련해 잘못된 신상털기 현상이 벌어지기도 했다.
축적보다 활용에 대한 논의 절실
이번 사건을 보면 데이터 공개로 인한 오류로 유명한 아메리카온라인(AOL) 사건이 떠오른다. 2006년 미국의 저명한 인터넷 기업 AOL은 65만 사용자의 석 달치 검색어 목록을 연구 목적으로 공개했다. 회사는 사용자 아이디를 무작위 숫자로 변경해 공개했지만 사용자들이 간혹 자신의 이름, 사회보장번호, 집 주소, 전화번호 등의 개인식별정보와 진료를 받은 병원, 특이한 취미 등 민감한 정보를 검색 키워드로 사용한다는 점을 간과했다. 예컨대 ‘코카인 구매법’과 같은 검색어가 포함되기도 했다.논란이 불거지자 AOL은 즉각 데이터를 삭제했지만 이미 공개된 데이터는 빠른 속도로 퍼져나갔다. 결국 데이터를 공개한 직원과 당시 최고기술책임자는 해고됐으며 캘리포니아지방법원에서 이뤄진 집단소송 결과 업체의 데이터 공유로 피해를 본 사용자에게 최소 5000달러씩 보상하라는 판결이 내려졌다.
AI 분야를 선점하고자 하는 나라들은 앞으로 더욱 빠른 속도로 데이터를 축적하고 공유하며 ‘데이터 산유국’으로 떠오를 것이다. 코로나19로 ‘비대면’이 일상화된 오늘날 AI는 산업과 국가행정에 적극적으로 활용되고 있으며 당분간 데이터 경쟁은 더 치열해질 것이다. 앞으로는 누가 양질의 데이터를 축적했는지에 대한 논의보다 방대한 데이터를 어디까지 사용해도 좋을지에 대한 논의가 필요할 것이다.
차미영 < 기초과학연구원 수리 및 계산과학 연구단 CI·KAIST 전산학부 부교수 >