[디지털 이코노미] '구글 독감 트렌드' 빅데이터 마법 같았지만…
입력
수정
지면S11
(82) 디지털 경제와 빅데이터‘데이터가 충분하면 스스로 말한다.’ 2008년 <와이어드(Wired)>에 실린 도발적인 기사다. 이는 데이터가 전체 모집단에 가까워진다면, 오랜 통계적 표본 추출 기법은 아무 쓸모가 없다는 주장이다. 과학적 모형도 필요없다는 주장마저 담겼다. 해당 결과가 맞는지 그렇지 않은지에 대한 이론을 개발할 이유도, 검증할 필요도 없다는 것이다.구글 엔지니어들은 ‘구글 독감 트렌드(Google Flu Trends)’를 만들면서 어떤 검색어가 독감 전파와 관련있는지에 대해 가설을 세우지 않았다. ‘김동영’보다 ‘독감 증상’ ‘근처 약국’ 같은 검색어가 독감 발생과 밀접하다는 상식적인 추론이 가능하지만 구글팀은 전혀 고려하지 않았다. 단지 상위 5000만 개의 검색어를 입력하고 알고리즘이 파악하도록 했다. 한때 구글의 독감 트렌드는 빅데이터와 알고리즘이 만들어 낸 새로운 세상의 상징이었다. 구글 독감 트렌드는 5000만 개의 검색어를 분석하는 패턴 인식 알고리즘이다. 이를 통해 추가 독감 발생 사례에 관한 질병통제예방센터 발표와 일치하는 검색어를 찾는다. 실제 여러 해 겨울에 독감 발생 현황을 안정적으로 알려줬지만 이들의 추정은 과장됐음이 입증됐다. 느리지만 꾸준히 업데이트되는 질병통제예방센터의 데이터는 이들 추정이 실제보다 두 배만큼 과장된 경우가 있음을 찾아냈다. 문제는 2009년에도 발생했다. 여름 독감이 발생하자 구글 독감 트렌드는 아무런 힘을 쓸 수 없었다. 겨울의 징후에만 반응하도록 설계된 탓이었다. 이번에는 실제 발병 사례가 구글의 추정보다 네 배나 높게 나왔다. 연구진은 구글 독감 트렌드를 특별한 이유 없이 폐기해버렸다.
빅데이터와 알고리즘에 대한 무비판적 신뢰가 만연.객관적인 시각이 디지털 경제의 발전 초석.
빅데이터와 알고리즘에 대한 시각 변화
구글 독감 트렌드가 사용한 것은 일종의 사후 데이터다. 즉 웹 검색, 신용카드 결제, 인근 통신탑에 포착된 휴대폰 신호 같은 것들이다. <슈퍼 팩트>의 저자 팀 하포드는 이를 ‘디지털 배기가스’라고 표현한다. 알고리즘은 오늘날 대규모 데이터 세트에서 패턴을 찾는 도구가 되었다. 빅데이터와 알고리즘을 바라보는 사람들의 시각은 처음에는 경이로움이었다. 하지만 시간이 지날수록 생각보다 허술한 오류가 발견되고, 인간을 대체하기에 아직은 부족하다는 점을 깨닫기 시작했다.2013년 발간된 빅토르 마이어 쇤버거와 케네스 쿠키어가 집필한 <빅데이터가 만드는 세상>이 전자의 시각이라면, 2016년 캐시 오닐이 발간한 <대량살상 수학무기>는 후자의 시각이다. <빅데이터가 만드는 세상>이 빅데이터와 알고리즘이 어떻게 우리 생활을 바꾸었는지를 소개한다면, 캐시 오닐은 어떻게 빅데이터와 알고리즘이 불평등을 심화하고 민주주의를 위협하는지 보여준다. 이에 대해 하포드는 두 책의 관점은 데이터 기반 알고리즘에 의해 ‘일하는 사람’과 ‘영향을 받는 사람’의 차이라는 통찰을 제시한다. 망치는 목수에게 유용한 도구지만, 못의 입장에서는 그렇지 않다는 것이다. 빅데이터에 관심이 많은 소수의 사람은 자신을 ‘목수’로 생각하지만, 다수의 사람이 자신을 ‘못’으로 생각하면서 혁신의 동력이었던 빅데이터와 알고리즘에 대한 인상이 달라지기 시작했다. CNN은 ‘수학은 인종차별자’라고 표현하기도 했다.