[기고] 실패한 연구데이터도 공유할 수 있어야
입력
수정
지면A38
완료된 연구도 상당수는 사장돼외상성 뇌 손상에 대한 임상연구가 실패를 거듭하자 다국적 컨소시엄인 ‘IMPACT’가 발족됐다. IMPACT는 지난 20년간의 주요 임상시험에서 4만3243명의 외상성 뇌 손상 환자의 데이터를 수집했고 이 데이터에 대한 재분석을 통해 62편의 논문이 나왔다. 이 연구를 통해 외상성 뇌 손상 환자 치료에 대한 명확한 가이드라인을 제공할 수 있게 됐다.
중복연구 등 낭비요인도 심각
모든 연구기록 DB화해 관리해야
김재수 < 한국과학기술정보연구원 첨단정보융합본부장 >
IMPACT가 수집한 데이터는 실험실에서 얻어지는 작은 데이터들의 집합이다. 작은 데이터들이 모여 빅데이터를 형성하고 이는 개별적으로 존재할 때보다 새로운 가치들을 만든다. 사이언스지가 2011년 보고한 것처럼 48.3%의 연구에서 1기가 미만의 데이터를 다루고 있다. 100기가 미만의 데이터를 다루는 연구가 전체 연구의 80.3%를 차지한다. 개별 데이터 크기 분포 그래프에서 데이터 용량은 작지만 더 큰 비중을 차지하면서 긴 꼬리를 갖게 되는 작은 데이터들을 ‘롱테일 경제’란 용어와 비슷하게 ‘롱테일 데이터’라고 한다. 80%의 ‘사소한 다수’가 20%의 ‘핵심 소수’보다 뛰어난 가치를 창출한다는 경제학 이론처럼 80%의 ‘작은 데이터’들이 연구의 돌파구를 제공하는 결과를 낼 수 있음을 강조하기 위해 사용된다.대형 장비에서 생산된 데이터들은 용량이 크고 장비가 달라도 데이터의 형태가 비슷하며 표준화돼 있지만, 롱테일 데이터들은 분야에 따라 데이터가 상이하며 분야별 표준화가 필요해 관리가 어렵다. 롱테일 데이터는 연구가 완료된 경우라도 연구자의 가설과 부합하지 않아 사장되는 데이터와 실패 사례에서 나온 데이터를 포함한다. 논문으로 출판되지 못하고 연구자의 개별 컴퓨터 내지는 연구실 서버에 보관돼 있는 다크데이터(dark data)는 그동안 연구자들의 관심을 받지 못했다. 2014년 의생명과학 분야 연구에 따르면 완료된 연구의 50% 이상이 유효한 연구임에도 사장됐다. 결과가 공개되지 않은 연구는 또 다른 중복연구를 하게 할 뿐 아니라 실제 연구 결과에서 연구 재현율을 떨어뜨리는 결과도 낳는다. 연구가 완료되면 그 연구를 통해 나온 모든 데이터를 공개하는 것이 개별 연구의 투명성 확보뿐만 아니라 새로운 연구에 이바지할 수 있고, 더 큰 지식을 만들어 낼 수 있는 기반이 될 것이다.
우리나라에서도 최근 연구데이터에 대한 관심이 높아졌으나 아직 대형 장비에서 나온 데이터에 머물러 있다. 그러나 데이터의 크기, 종류에 상관없이 국민의 세금으로 이뤄진 연구는 결과를 관리하고 더 효과적으로 활용할 수 있도록 기반을 마련하는 것이 중요하다. 연구자들의 편의를 생각해 최대한 간편하게 데이터를 기탁할 수 있는 플랫폼을 마련하고, 데이터 표준화와 큐레이션을 통해 여러 분야의 연구자들이 융합연구를 할 수 있는 장을 만들어야 한다. 이와 더불어 개인정보나 지식재산권에 대한 논의와 보호 장치도 필요하다.
과학은 데이터의 기록이다. 데이터가 의미를 갖기 위해서는 그 데이터에 대한 구체적인 기록이 필요하고, 이 기록은 데이터의 원주인이 아닐수록, 데이터를 획득한 시간이 지날수록 더 중요해진다. 유추와 추측에 의존한 데이터는 데이터로서의 가치를 잃는다. 많은 선행 연구들이 뉴턴에게 ‘거인의 어깨’를 제공해 준 것처럼, 오늘보다 내일에 더 큰 거인의 어깨를 내어주려면 기록에 기반한 데이터를 관리하고 공유해야 한다.
김재수 < 한국과학기술정보연구원 첨단정보융합본부장 >