설 연휴에 우연히 TV 바둑을 봤다. 정상급 기사일수록 인공지능과 일치하는 수를 많이 뒀고, 한 수 한 수 바둑의 승패가 인공지능을 통해 확률로 예측됐다. 이도 놀라운 일이지만, 필자가 살면서 가장 놀란 것은 2016년 2월 구글의 인공지능 알파고가 당시 바둑 세계 1인자이던 이세돌 9단에게 승리한 일이라 여겨진다.

인공지능이 자기학습을 한다는 딥러닝이라는 개념 자체를 모르니, 그저 인간과 기계의 대결에서 당연히 인간이 승리할 것이라고 굳게 믿었다. 특히 바둑에는 서로 한 수씩 걸러 가면서 둬야 하는 패라는 복잡미묘한 영역이 있어, 아무리 컴퓨터라고 해도 이 패의 문제를 극복하기는 어렵다고 생각했다. 그러나 결과는 기계의 압도적 승리로 끝나 필자는 큰 충격을 받았다.

그 뒤 딥러닝이라는 것이 기계가 ‘스스로’ 학습하고 미래 상황을 확률을 통해 예측해 최선의 결과를 찾아내는 방법이라는 걸 알았다. 또한 인공지능의 학습을 위해 기초자료가 많을수록 좋고, 이 수많은 자료를 합해 빅데이터라고 부른다는 것도 알았다. 알파고 역시 고금의 수많은 바둑 기보를 빅데이터로 삼아 바둑을 학습했던 것이다.

필자는 당시 통계청장이었고, 알다시피 통계청은 통계 목적으로 개인정보를 다룰 수 있는 정부 기관이다. 우리나라는 다른 나라에는 없는 ‘주민등록번호’라는, 자료와 자료를 연결할 매개체를 가지고 있어 빅데이터 선진국으로 도약하는 데 아주 유리한 조건을 갖추고 있다. 빅데이터 선진국은 우리나라의 주민등록 체계를 무척 부러워한다. 그 무렵 통계청은 빅데이터를 ‘연계와 분석을 통해 유용하게 사용할 수 있는 모든 데이터’로 정의하고, 민간과 공공의 자료를 융복합한 빅데이터 생산에 아주 열심히 노력했다.

그러나 6년이 지난 지금도 개인정보 보호와 부처 이기주의 문제로 우리나라에서 빅데이터 활용은 별다른 진전이 없어 보인다. 대선을 한 달가량 앞두고 유력 후보들이 빅데이터 공약을 앞다퉈 내놓고 있지만, 빅데이터 확산과 개인정보 보호의 조화에 대해 별다른 해답을 제시하지는 못하고 있다.

현행법은 개인정보가 유출되면 비식별화를 제대로 하지 못한 빅데이터 제공자와 재식별화한 자를 모두 처벌하고 있다. 당연히 처벌 규정이 있어야 하는 부분이지만, 과도한 규제는 빅데이터 산업 발전을 저해할 수 있다. 미국 등 일부 빅데이터 산업 선진국은 일정 수준 이상의 비식별화 의무를 다했다면 빅데이터 제공자보다 불법적으로 개인정보를 추출한 범죄자의 처벌에 무게를 싣고 있다. 비식별을 위해 최선을 다한 뒤 자료를 제공했다면, 그 선의의 제공자를 처벌해서는 안 된다. 규제를 방치한다면 우리는 ‘미래의 석유’라 불리는 빅데이터 산업의 발전을 기대하기 어렵다.