인터넷 인구가 확산되고 스마트폰 사용자가 급증하면서 데이터가 폭발적으로 늘고 있다. 인터넷 뱅킹이나 주식 거래,뉴스에 달린 댓글,유튜브의 동영상,트위터 페이스북에 올린 글 등도 서버에 기록돼 데이터로 남는다. 매일 트위터에서만 7테라바이트,페이스북에서는 10테라바이트의 데이터가 쏟아진다고 한다.

스티브 밀스 IBM 부회장은 최근 라스베이거스에서 열린 'Information On Demand 2010'행사 기조연설에서 "디지털 데이터의 양은 지난해 80만페타바이트(테라바이트의 1000배)에서 2020년에는 44배인 35제타바이트가 될 것"이라고 전망했다.

이런 데이터의 80%는 사용자들이 사적으로 남긴 것이거나 분석이 어려운 동영상 사진 등이다. 별다른 의미를 찾기 어려운 비정형 데이터다. 그러나 정보기술(IT)의 발전은 이런 데이터까지 유의미한 정보로 바꿔놓고 있다.

IBM은 자사의 실시간 분석 툴을 사용하면 초당 1144만개의 메시지를 분석할 수 있다고 말한다. 이 기술로 데이터를 기반으로 한 모델을 만들고 패턴을 분석하게 되면 데이터 용량이 많아도 실시간 판단은 물론 예측까지 가능하다는 설명이다. 로저 리어 IBM 프로덕트 매니저는 "인터넷 상의 수많은 메시지들도 빠르게 분석해 상관관계를 찾아낼 수 있다면 기업의 마케팅뿐만 아니라 공공부문에서 사회의 투명성을 높이는 데도 활용될 수 있다"고 말했다. 뉴욕 경찰청은 이 기술을 이용해 범죄율을 낮췄고,컬럼비아대 병원은 뇌손상 환자의 합병증을 조기에 진단할 수 있는 시스템을 구축했다. 보험회사들도 사기 여부를 즉시 판별할 수 있는 시스템을 만들고 있다.

문제는 이 기술이 남용된다면 피해도 심각할 수 있다는 점이다. 무심코 인터넷에 올린 글까지 분석해 활용할 정도라면 개인들의 사적 정보도 노출될 수밖에 없기 때문이다. 기업들의 상술에 무차별적으로 쓰일 수 있고 심지어 독재 국가의 통치를 강화하는 수단이 될 수도 있다. 이미 트위터에 올린 글은 개인의 동의없이도 기업들이 이용하고 있다. 우리가 만들어낸 빅 데이터가 모두에게 유용한 정보가 될 수 있도록 하려면 첨단 기술의 적용에 대한 사회적 합의가 전제될 필요가 있다.

김태완 라스베이거스/국제부 기자 twkim@hankyung.com