[시론] '빅 데이터 시대' 강건너 불 아니다
빅 데이터(Big Data) 시대가 도래하고 있다. 각종 소셜네트워크서비스(SNS), 실시간 센서 데이터, 지리 정보, 고객 정보, 멀티미디어 콘텐츠 정보 등 다양한 데이터 소스가 나타남에 따라 데이터 양은 급팽창하고 있다. 시장조사기관인 IDC의 연구조사에 따르면 2011년에만 새롭게 생성되거나 복제된 정보의 양이 1.8제타바이트(1조8000억 기가바이트) 이상이고, 앞으로 정보의 양은 기하급수적으로 증가할 것이라고 예측됐다. 유사 이래 2003년까지 생산된 모든 정보의 양이 0.005제타바이트인 점을 감안하면, 우리가 살고 있는 시대는 빅 데이터 시대임에 틀림없다.

빅 데이터란 기존의 데이터베이스나 아키텍처가 저장, 관리, 분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합을 말한다. 빅 데이터는 그 안에 커다란 경제적 가치가 있는 ‘정보’를 담고 있으며, 이를 누가 신속하고 정확하게 추출할 수 있느냐가 오늘날의 지식정보화 사회에서 기업이나 국가 경쟁력의 중요한 요소다. 최근에는 이런 ‘정보’를 부분적으로 추출할 수 있는 역량을 보유한 구글, 아마존, 넷플릭스 등과 같은 인터넷 기업들이 전례가 없을 정도로 빠른 성장을 보이고 있다.

앞으로는 네트워크에서 다뤄지는 수많은 이용자 정보와 행동 기록들은 더 큰 영향력을 발휘하며, 빅 데이터 시대를 열어갈 것이다. 빅 데이터 분석의 예를 들면, 미국의 지난 대선에서 오바마를 지원했던 스포트라이트 애널리시스 사는 1억8000만명의 유권자들에 대한 인구통계 조사자료, 신용평가 정보, 차량과 미디어의 소비기록 정보, 웹에 게시한 글 내용 등 다양한 정보를 분석해 유권자를 차별화하고 개인별로 구분해 대응하도록 조언했다.

과거 산업혁명에서 석탄과 철이 주요한 역할을 담당했던 것처럼, 지식 정보화 사회에서는 빅 데이터 분석능력이 중요한 역할을 담당할 것이다. 빅 데이터 분석능력이 부족한 국가는 선진국이라고 평가받기도 어려울 것이다. 우리 사회는 도래하는 빅 데이터 시대에 대해 어느 정도 준비하고 있는가. 사실상 준비돼 있지 못한 것이 현실이다. 지금이라도 미래 도전에 대비해야 한다.

우선적으로 빅 데이터 분석에 참여할 수 있는 인력양성에 나서야 한다. 빅 데이터 분석은 통계학, 정보과학, 컴퓨터공학 등이 직접적인 학문분야로, 이런 분야에 우수인재들이 모이고 인재가 양성되는 장기적 대책을 마련해야 한다. 미국에서는 최근 빅 데이터 분석이 가능한 데이터 과학자를 모집하는 광고가 눈에 자주 띈다고 한다. 불행히도 우리나라에서는 우수 인재들이 의학, 치의학 등에 몰리고 자연과학과 공학이 홀대받고 있다. 더욱이 소프트웨어 개발 분야의 인기가 너무 없다는 것은 빅 데이터 시대에 대비해 큰 문제점이 아닐 수 없다.

두 번째로 빅 데이터 분석에 사용될 수 있는 소프트웨어에 대한 학습과 연구·개발을 서둘러야 한다. 이런 기능의 기존 소프트웨어로는 데이터 마이닝이 있다. 이것은 대규모의 데이터 속에서 일정한 패턴을 찾아내는 통계적 기법의 소프트웨어로 이미 기업에서는 최적의 마케팅 전략 등에 사용되고 있다. 이 분야의 소프트웨어 개발에 앞서가는 세계적인 기업으로는 SAS가 있으며, 고성능계산 소프트웨어는 빅 데이터 분석을 선도할 것으로 예상된다. 이를 벤치마킹할 필요가 있다.

마지막으로 정부에서 주도하고 있는 융합기술 개발에 빅 데이터 분석 기술을 추가해야 한다. 빅 데이터 분석은 통계학, 정보과학, 컴퓨터 공학이 기초가 되고, 분석 대상 분야인 의학, 보건학, 공학 등의 지식이 결합되는 융합과학기술 분야이다. 21세기 빅 데이터 시대에 우리나라가 선진국의 역할을 감당하고자 한다면 지금부터 준비를 서둘러야 한다.

박성현 < 과학기술한림원 부원장·서울대 명예교수 parksh@snu.ac.kr >