빅데이터 역량, 데이터 과학자 확보에 달렸다
빅데이터는 ‘21세기 원유’라고 불리며, 수년 전부터 관심을 끄는 주요 정보기술(IT) 트렌드가 됐다. 리서치 회사인 위키본(wikibon)은 빅데이터 시장 규모가 올해 384억달러에 이르고, 2017년에는 501억달러 규모로 성장할 것으로 전망했다.

기업들의 빅데이터 투자에 대한 관심도 꾸준히 증가하고 있다. 국내는 빅데이터 산업 발전이 더디게 진행되고 있는 것으로 보인다. IT 미디어 전문기업인 한국IDG가 지난해 초 국내 IT 전문가 및 관련 담당자들을 대상으로 조사한 결과에 따르면, 국내에서 빅데이터 기술을 도입한 기업은 11%에 불과하다. 향후 2년 내에 도입할 예정인 기업도 3분의 1 수준인 것으로 조사됐다. 이처럼 대다수 국내 기업은 빅데이터를 제대로 활용하지 못하고 있는 것으로 보인다.

데이터 확보 문제, 정보보호 및 보안 문제, 예산 문제, 분석 역량 및 전문가 부족 문제 등이 빅데이터 활용을 어렵게 하는 요인들이다. 외부 데이터는 고사하고 기업 내부 데이터들도 파편화돼 통합돼 있지 않은 경우가 많다. 또 필요한 외부 데이터가 있어도 확보하기 어려운 경우가 많다. 이미지, 텍스트, 동영상 등 비정형 데이터는 확보하기도 어렵지만 의미 있는 결과를 얻을 수 있을 정도로 기술 수준도 충분히 발달하지 못했다. 특히 영어에 비해 한글 텍스트 분석은 더 어렵고 갈 길이 멀다.

개인정보 보호에 따른 리스크도 크다. 개인정보는 특정 개인을 식별할 수 없도록 하는 비식별화 조치를 취한 뒤 이용할 수 있지만, 비식별화가 생각보다 쉽지 않다. 개인정보 보호 문제와 함께 개인정보 유출 등과 같은 보안 문제도 중요한 이슈다. 최근 기업들의 광범위한 데이터 수집으로 인해 개인정보 유출사고가 많이 나타나고, 사고 규모가 대형화되면서 이로 인한 리스크도 증가해 문제가 되고 있다. 시스템 구축비, 관리비 등 예산 부족도 빅데이터의 활용을 어렵게 만드는 요인 중 하나다.

하둡(hadoop) 등 공개소프트웨어(OSS:open source software)를 활용하면 예산은 확실히 줄일 수 있다. 그러나 하둡이나 NoSQL 데이터베이스 등 공개 소프트웨어를 다룰 수 있는 기술을 보유한 인력이 기업 내부에 없다면 오히려 인력에 대한 비용이 급격히 커지거나 의미 있는 분석 결과를 얻지 못할 가능성도 있다. 데이터 과학자에 대한 수요는 급증하고 있는 반면 공급이 수요를 따라가지 못하면서, 빅데이터 관련 인력 수급의 불균형 또한 장애 요인이 되고 있다. 여기서 말하는 데이터 과학자는 기술, 산업, 통계에 대한 다양한 전문 지식을 바탕으로 여러 소스를 통해 유입된 데이터 속에서 숨겨진 가치를 찾아내고 의미 있는 통찰력을 제시할 수 있는 인재다. 이에 적합한 자격을 갖춘 인재를 구하는 것은 쉽지 않다.

빅데이터를 활용하는 데 어려움이 있지만 사용하기 비교적 쉬운 데이터 분석으로 접근해 오히려 성과를 내고 있는 사례도 많다. 코노코필립스, 유나이티드 헬스케어, 클라이밋 코퍼레이션 등은 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출했다.

그리고 제스트파이낸스와 트립어드바이저는 다양한 비정형 데이터를 활용한 사례다. 비정형 데이터가 처리, 정제 및 분석 기술의 한계 때문에 분석하는 것이 어렵지만 분석 대상을 잘 디자인할 경우 적지 않은 성과를 낼 수 있음을 보여주는 사례들이다.

아직은 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내기가 어렵지만, 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것이 당장의 성과뿐 아니라 미래를 위한 역량 축적을 위해서도 필요한 과정으로 보인다. 빅데이터 역량은 곧 데이터 과학자 확보 문제와 직결된다.

김민희 < 책임연구원 >