‘데이터가 충분하면 스스로 말한다.’ 2008년 <와이어드(Wired)>에 실린 도발적인 기사다. 이는 데이터가 전체 모집단에 가까워진다면, 오랜 통계적 표본 추출 기법은 아무 쓸모가 없다는 주장이다. 과학적 모형도 필요없다는 주장마저 담겼다. 해당 결과가 맞는지 그렇지 않은지에 대한 이론을 개발할 이유도, 검증할 필요도 없다는 것이다.
[디지털 이코노미] '구글 독감 트렌드' 빅데이터 마법 같았지만…
구글 엔지니어들은 ‘구글 독감 트렌드(Google Flu Trends)’를 만들면서 어떤 검색어가 독감 전파와 관련있는지에 대해 가설을 세우지 않았다. ‘김동영’보다 ‘독감 증상’ ‘근처 약국’ 같은 검색어가 독감 발생과 밀접하다는 상식적인 추론이 가능하지만 구글팀은 전혀 고려하지 않았다. 단지 상위 5000만 개의 검색어를 입력하고 알고리즘이 파악하도록 했다. 한때 구글의 독감 트렌드는 빅데이터와 알고리즘이 만들어 낸 새로운 세상의 상징이었다. 구글 독감 트렌드는 5000만 개의 검색어를 분석하는 패턴 인식 알고리즘이다. 이를 통해 추가 독감 발생 사례에 관한 질병통제예방센터 발표와 일치하는 검색어를 찾는다. 실제 여러 해 겨울에 독감 발생 현황을 안정적으로 알려줬지만 이들의 추정은 과장됐음이 입증됐다. 느리지만 꾸준히 업데이트되는 질병통제예방센터의 데이터는 이들 추정이 실제보다 두 배만큼 과장된 경우가 있음을 찾아냈다. 문제는 2009년에도 발생했다. 여름 독감이 발생하자 구글 독감 트렌드는 아무런 힘을 쓸 수 없었다. 겨울의 징후에만 반응하도록 설계된 탓이었다. 이번에는 실제 발병 사례가 구글의 추정보다 네 배나 높게 나왔다. 연구진은 구글 독감 트렌드를 특별한 이유 없이 폐기해버렸다.

빅데이터와 알고리즘에 대한 시각 변화

구글 독감 트렌드가 사용한 것은 일종의 사후 데이터다. 즉 웹 검색, 신용카드 결제, 인근 통신탑에 포착된 휴대폰 신호 같은 것들이다. <슈퍼 팩트>의 저자 팀 하포드는 이를 ‘디지털 배기가스’라고 표현한다. 알고리즘은 오늘날 대규모 데이터 세트에서 패턴을 찾는 도구가 되었다. 빅데이터와 알고리즘을 바라보는 사람들의 시각은 처음에는 경이로움이었다. 하지만 시간이 지날수록 생각보다 허술한 오류가 발견되고, 인간을 대체하기에 아직은 부족하다는 점을 깨닫기 시작했다.

2013년 발간된 빅토르 마이어 쇤버거와 케네스 쿠키어가 집필한 <빅데이터가 만드는 세상>이 전자의 시각이라면, 2016년 캐시 오닐이 발간한 <대량살상 수학무기>는 후자의 시각이다. <빅데이터가 만드는 세상>이 빅데이터와 알고리즘이 어떻게 우리 생활을 바꾸었는지를 소개한다면, 캐시 오닐은 어떻게 빅데이터와 알고리즘이 불평등을 심화하고 민주주의를 위협하는지 보여준다. 이에 대해 하포드는 두 책의 관점은 데이터 기반 알고리즘에 의해 ‘일하는 사람’과 ‘영향을 받는 사람’의 차이라는 통찰을 제시한다. 망치는 목수에게 유용한 도구지만, 못의 입장에서는 그렇지 않다는 것이다. 빅데이터에 관심이 많은 소수의 사람은 자신을 ‘목수’로 생각하지만, 다수의 사람이 자신을 ‘못’으로 생각하면서 혁신의 동력이었던 빅데이터와 알고리즘에 대한 인상이 달라지기 시작했다. CNN은 ‘수학은 인종차별자’라고 표현하기도 했다.

마법은 없다

김동영
KDI 전문연구원
김동영 KDI 전문연구원
사실 목수를 북돋워야 할지 아니면 모르는 사이 못이 되진 않을지 걱정할 필요는 없다. 상황에 따라 다르기 때문이다. 저널리스트인 찰스 두히그의 2012년 뉴욕타임스 기사는 빅데이터에 대해 차분한 감정을 갖도록 도와준다. 미국 할인점 타깃은 구매 데이터 분석을 기반으로 10대 여학생에게 아기 옷과 임부복에 대한 쿠폰을 보냈다. 아버지는 타깃에 항의했고 매니저는 사과했다. 하지만 10대 딸은 실제로 임신을 했다. 이는 당시 데이터 시대가 도래했음을 대표하는 사례로 자주 거론됐다. 하지만 데이터 과학자들에게는 너무나 당연한 이야기였다. 엽산과 비타민을 구입한 명세서를 토대로 임신을 유추했다는 점은 지극히 인간적인 수준의 추론이라는 것이다. 데이터 과학자인 카이저 펑은 임신하지 않았는데 아기 옷 할인 쿠폰을 받는 여성들의 사례도 함께 들었다면 그 일이 그렇게 대단해 보이지 않았을 것이라고 지적한다. 우리는 어쩌면 빅데이터와 알고리즘에 막연한 그리고 무비판적인 신뢰(혹은 비난)를 보내고 있는지도 모른다. 구글의 독감 트렌드, 타깃의 사례가 이를 방증한다. 세상에 그 어떤 미래도 현재, 과거와 완전히 단절적으로 존재할 수 있는 것은 없다. ‘마법은 없다’는 시각이 필요한 시점이다.