[책마을] 빅데이터가 놓친 정보들 그 곳에 '진짜 답'이 있다
입력
수정
지면A30
왜 빅데이터는 완벽할 수 없나빅 데이터의 시대다. 의식적·무의식적으로 행하는 모든 행동이 나도 모르는 새 디지털화돼 기록되고, 누군가에겐 가치 있는 정보로 활용된다. 관행에 따라서, 주먹구구로, 혹은 감에 의존해 일하는 것은 필패의 지름길일 뿐이다. 하지만 철석같이 믿는 데이터가 항상 진실만을 말해주는 것일까. 눈에 보이는, 혹은 아는 데이터가 과연 필요로 하는 정보의 전부일까.
누락·간과한 숨은 데이터, 오류의 원인
빠진 정보 무엇인지조차 모를 때 많아
데이터 의심할 줄 알아야 진정한 '분석'
다크 데이터
데이비드 핸드 지음 / 노태복 옮김
더퀘스트 / 396쪽│1만9000원
《다크 데이터》는 지니고 있지 않으며, 어떤 내용인지조차 모르고, 수집되지도 않은 정보의 중요성을 다루는 책이다. 갖고 싶거나, 가지고 싶었거나, 가진 줄 알았지만 실제로는 손안에 없는 데이터를 여러모로 짚어본다. 일반적으로 데이터에 관한 책들이 ‘보유한’ 데이터를 대상으로 삼는 것과 대조적으로 그동안 시야에 포착되지 않았던 데이터의 이면을 파고든다. 영국 임피리얼칼리지런던 수학과 명예교수인 저자는 세계적인 통계학·알고리즘 전문가다.책은 세상의 각종 문제를 해결할 만능열쇠처럼 보이는 빅 데이터가 사회 현상을 제대로 파악하기는커녕 통계학적 오류를 반복하는 현상에 주목한다. 그리고 그런 일이 벌어지는 배후로 우리가 놓치는 데이터를 지목한다. 바로 ‘다크 데이터’라 불리는 온갖 형태의 누락된 데이터들 말이다.
빠진 데이터라고 부르니 별것 아닌 것처럼 느껴질 수 있다. 하지만 이 다크 데이터가 사실을 오해하게 만들고, 틀린 결론을 내리게 이끌고, 나쁜 결정으로 유혹하는 경우가 비일비재하다. 보이지도 않고 기록되지도 않았지만, 인간의 결정과 행위의 중차대한 순간에 막대한 영향을 끼치곤 하는 것이다. 그리고 다크 데이터가 숨어 있을 가능성을 알아차리지 못하면 치명적인 결과로 이어지기도 한다.실제 일상생활에선 다크 데이터를 간과하고, 눈에 보이는 수많은 빅 데이터에만 시선이 뺏겨 사건의 실상을 보지 못하는 경우가 드물지 않다. 2012년 미국을 강타했던 허리케인 샌디에 관한 트윗이 가장 많이 나온 곳은 뉴욕 맨해튼이었다. 정작 허리케인으로 큰 피해를 봤던 로커웨이와 코니아일랜드 같은 지역에선 트윗이 매우 적었다. 허리케인 피해가 작았기 때문이 아니라 트윗을 올릴 스마트폰 사용자가 적었던 탓이었다.
다크 데이터로 보완하지 못하면 구체적이고 방대한 빅 데이터도 허울뿐인 경우도 허다하다. 수많은 사람의 구매 이력이 담긴 슈퍼마켓의 데이터는 기존에 없던 새로운 물품이 나오거나, 새 물건을 진열대에 새로운 방식으로 배치할 때, 개점 시간을 바꿨을 경우 사람들이 어떻게 행동할지를 점치는 데 별 도움이 되지 않는다. 다크 데이터의 중요성을 깨닫더라도, 미지의 데이터를 구체적으로 파악하는 것은 전혀 다른 차원의 문제다. 일반적으로 우리는 데이터에 빠진 값이 있다는 것은 알아도, 그 값이 무엇인지 모르는 경우가 많기 때문이다.
누락된 데이터를 정의하는 것 역시 쉬운 일은 아니다. 무엇이 빠졌는지 파악하는 것은 너무나 범위가 넓은 일인 탓이다. 무언가를 모른다는 사실 정도는 아는 때도 있고, 모르는 대상이 뭔지 감도 못 잡을 정도로 새까맣게 모를 때도 있다. 심지어 모른다는 것조차 모를 때도 있다. 이를 모두 ‘누락된’ 데이터로 통칭하는 한 다크 데이터의 정체는 불분명할 수밖에 없다.다크 데이터도 데이터인 만큼, 다른 데이터들과 공통의 특징을 많이 지닌다. 데이터가 불완전할 수도 있고, 일부를 살폈다고 해서 전부를 파악할 수 없는 점도 동일하다. 방대한 데이터를 요약해 한눈에 파악하고자 하는 욕심도 다크 데이터라는 ‘어둠의 자식’을 낳는 원인이다.
아무리 상관계수와 회귀계수, 부하값으로 분칠을 하더라도 요약은 그 정의에서부터 세부사항을 희생하겠다는 의미를 담고 있을 수밖에 없다. 평균은 개별 데이터값을 숨기는 행위의 다른 표현에 불과하다.
다크 데이터의 존재를 파악해 수집한다고 하더라도 모호한 점이 적지 않다. 데이터의 측정 과정이 부정확할 수도 있고, 측정된 것이 정말로 측정하고 싶은 것이 아닐 수도 있다. 소수점을 잘못 입력한다든지, ‘손가락이 뚱뚱’해서 엉뚱한 버튼을 누를 가능성을 배제할 수 없다. 줄자나 각도기, 눈금판과 같은 측정 도구로 값을 측정할 때면 언제든 반올림 때문에 진실이 왜곡될 수 있다. 데이터 수집 방법에 따라 다른 데이터가 생기기도 한다.그렇다면 다크 데이터는 부정적인 존재이기만 할까. 저자는 다크 데이터가 꼭 나쁜 것만은 아니라는 점도 짚고 넘어간다. 다크 데이터를 역이용해 종래의 데이터 분석 방식을 어떻게 뒤집을 수 있는지도 알게 되기 때문이다. 무엇보다 다크 데이터의 존재 가능성을 의식하면서 ‘데이터를 의심할 줄 아는’ 태도를 갖추는 것은 더 깊은 지혜, 더 나은 결정, 더 바람직한 행동으로 이어지는 지름길이 될 수 있다는 주장은 전하는 울림이 적지 않다.
김동욱 기자 kimdw@hankyung.com