통계청, 정보보호 신기술로 데이터 보호와 개방 두 마리 토끼 잡는다
입력
수정
통계데이터센터 방문없이 원하는 시간과 장소에서 데이터분석 가능최근 연구자 A씨는 통계청 통계등록부를 이용해서 배달앱이 코로나 19전후 전국의 골목상권에 미친 영향을 분석하기 위해 통계데이터센터를 방문했다. 기업통계등록부는 우리나라 전체 천만개 이상의 사업체 매출액, 종사자수 등을 가장 세밀하게 분석할 수 있는 자료원이다.
세세한 사업체 정보가 모두 담겨진 만큼 보안도 철저하다. 이 자료는 데이터센터 내의 물리적으로 폐쇄된 특정 공간에서 정해진 시간 내에서만 접근할 수 있고, 최종 분석한 결과표만 가지고 나갈 수 있다.A씨는 “통계등록부를 기반으로 행정자료, 조사자료, 빅데이터를 모두 연계해서 우리나라 전체 사업체를 분석할 수 있다는 건 빅데이터 분석가들에겐 기회의 장이자 놀이터다. 딱 하나, 내가 원하는 시간과 장소에서 자료에 접근할 수 없다는 것만 빼면.”이라고 말한다. 시간과 공간의 제약없이 안전하게 자료분석이 가능한 “데이터 보호 신기술”은 없는걸까?
데이터 시대를 맞이하여 이미 발표된 통계 수치 보다는 원자료를 활용한 세밀한 분석 수요가 늘어나고 있다. 이를 위한 데이터 개방을 확대해야 한다는 목소리도 높아지고 있다. 하지만 준비 없는 데이터의 개방은 개인정보 유출 등의 문제를 초래할 수 있다.
최근 국제사회에서는 데이터 보호와 데이터 개방·활용이라는 상반되는 두개의 가치를 충족할 수 있는 신기술로 재현자료(Synthetic Data)를 주목하고 있다.재현자료란 쉽게 말하면 실제 데이터와 비슷하게 구성한 모형 데이터이다. 즉, 원자료와 합계나 평균 등 통계적 추론값은 유사하지만 개별 응답자의 정보가 노출되지 않도록 합성된 자료를 말한다. 통계적으로는 유의미하지만 자료를 구성하는 개별 자료는 가상으로 생성된 자료여서 익명화된 가상 데이터라 볼 수 있다.
새로운 데이터 보호 기술로서 재현자료에 관한 연구가 글로벌 사회에서 속속 진행되고 있다. 미국의 센서스국(Census Bureau)도 SIPP 자료(미국의 가계조사)를 가상으로 생성하여 연구자들이 분석에 활용할 수 있도록 재현자료 베타버전을 제공하고 있다.
우리나라 통계청도 삼년 전부터 재현자료를 비롯한 데이터 보호 기술 연구를 본격적으로 진행해 왔다. 금년 6월에는 실제 기업통계등록부를 통계적으로 재현한 데이터셋을 베타 서비스 형태로 처음 공개한 바 있다.통계청은 기업통계등록부를 샘플링한 후 두 가지 다른 재현기법을 적용해 합성한 데이터셋을 생성하였다. 등록부상의 천 만개 사업체 중 음식 및 숙박업에 해당하는 백 만개의 사업체와 매출액 등 21개 항목을 통계적 기법을 활용, 가상으로 생성하여 통계데이터센터 홈페이지에서 다운로드 받아 이용할수 있도록 제공하고 있다.
이제 이용자는 통계데이터센터라는 물리적 공간에 방문할 필요 없이 홈페이지를 통해 바로 기업통계등록부 재현자료를 보고 다운로드 받을 수 있다. 통계데이터센터에 방문하기 전 온라인으로 기업통계등록부의 구조를 미리 학습할 수 있어 센터 방문 횟수 및 체류 시간도 획기적으로 줄어들 수 있다.
통계자료 이용자의 다양한 수요에 맞춰 정확성과 안정성이 담보된 재현기술이 상용화되기 까지는 아직 갈 길이 먼 것이 사실이다. 향후 재현자료 기술이 국가통계 데이터 전반으로 확산되기 위해서도 더 지속적인 연구와 개선 노력이 필요하다.재현자료 기술을 활용한 데이터의 개방이 더 확대되면 데이터 정보를 보호하면서도 빅데이터 분석의 가치를 높이고, 정부가 추진하는 디지털플랫폼 혁신 생태계 구축을 통한 새로운 가치 창출에도 크게 기여할 수 있을 것으로 전망된다.
앞으로 통계청은 다양한 정보보호기술을 적용해 그간 정보 노출 위험 때문에 제공할 수 없었던 데이터의 개방을 촉진하고 접근성 또한 지속적으로 높여나갈 것이라고 밝혔다.
한경닷컴 뉴스룸 open@hankyung.com