바이오 빅데이터 시대…국가가 주도적으로 인프라 구축해야

생명硏 리포트 - 이병욱 국가생명연구자원정보센터 책임연구원

인간 유전체 지도 발표 이후
바이오 연구 패러다임 바뀌어

빅데이터 수집, 공유, 분석
바이오 인프라 투자 필수적
생명硏, 데이터센터 구축
동양인 중에는 술을 먹으면 얼굴이 금방 빨개지거나 우유를 잘 소화하지 못하는 사람이 많다. 하지만 서양인 중에는 이런 사람이 드물다. 서양인과 비교해 동양인 유전자에 술 분해와 관련된 아세트알데하이드 분해효소와 우유의 젖산을 분해하는 락타아제가 부족한 게 원인이다.

우리 세포에는 부모로부터 물려받은 46개(23쌍)의 염색체가 있다. 인간 염색체는 약 3억 개의 DNA 염기(아데닌, 시티딘, 구아닌, 티민)로 구성돼 있으며, 약 2만 개의 유전자를 갖고 있다. 이들 유전자에는 세포와 인간의 많은 부분을 결정하는 ‘유전정보’가 들어 있다. 술과 우유에 대한 동양인과 서양인의 분해 능력 차이는 여기에서 비롯된다.

50만원 내면 유전자 정보 알 수 있어

유전정보를 빨리, 정확하게 파악할 수 있으면 질병을 예방하는 것도 가능하다. 유전자 돌연변이가 일어난 위치와 변이 정보를 알면 질병에 대해 선제적인 대응을 할 수 있기 때문이다.

미국의 유명 여배우 앤젤리나 졸리는 2013년 유전자 검사를 통해 유방암 관련 유전자인 ‘BRCA1’에 돌연변이가 있다는 것을 알게 됐다. 그는 유방암 예방을 위해 자신의 유방을 모두 절제했다. 애플 창업자인 스티브 잡스는 췌장암 치료를 목적으로 개인 유전체 서열을 분석해 암의 원인이 되는 돌연변이를 찾아서 치료하려고 했지만, 무위로 돌아갔다.

2000년대 초 인간 DNA 염기서열 전체를 해독한 인간 유전체 지도 초안이 발표됐다. 이는 유전체 빅데이터 시대 서막을 알리는 역사적인 전환점이었다. 하지만 당시에는 한 명의 유전체 해독을 위해서는 10년이라는 기간과 3조원의 비용이 소요됐다. 2005년 새롭게 등장한 차세대 유전체분석기술(NGS)과 이후 급속한 기술 발달은 이 문제를 해결했다. 지금은 50만원만 지불하면 1주일 만에 개인의 유전 정보를 알 수 있다.유전체 분석에 드는 비용이 급격히 줄어들면서 대량의 데이터가 쏟아졌다. 빅데이터를 등에 업은 생물학은 과거 실험과 이론 중심에서 이제 데이터 중심의 과학으로 패러다임이 바뀌고 있다. 대량의 바이오 데이터를 제대로 활용하기 위해서는 빅데이터 기술과 활용 인프라 구축이 필요하다. 바이오 빅데이터를 잘 활용하려면 △전산 인프라 △빅데이터 수집 및 공유 △빅데이터 분석 환경의 세 가지 기본요소가 골고루 발전해야 한다.

한사람 유전자 정보만 250GB

먼저 빅데이터 전산 인프라 구축부터 살펴보자. 사람 한 명을 대상으로 하는 유전체 실험에서 생산되는 정보량은 약 250기가바이트(GB)에 달한다. 10만 명이면 25페타바이트(PB: 1PB=1024테라바이트)의 데이터가 생산되는 셈이다. 1PB는 767년간 영화를 볼 수 있는 용량이다. 현재 세계적으로 10만 명 이상의 인간 유전체 프로젝트를 수행하는 나라는 한국을 포함해 10개국이 넘는다.

이런 대용량 데이터를 개인 연구자들이 자체 실험실에 구축한 전산 시스템으로 분석하는 건 비용 측면에서 불가능에 가깝다. 따라서 필요할 때 전산 인프라를 빌려서 사용하는 클라우드 기술이 바이오 분야에서 활용되고 있다.두 번째는 빅데이터 수집과 공유다. 전국의 대학, 연구소, 병원, 기업 등에서 생산되는 데이터를 한곳으로 모을 수 없다면 빅데이터로 가치가 없다. 흩어져 있는 데이터를 수집하는 체계와 중심기관이 필요하다. 이렇게 하려면 먼저 데이터별 표준양식을 정해야 한다. 표준양식은 당연히 국제 양식과 호환돼야 한다.

수집된 데이터는 연구자들이 믿고 사용할 수 있도록 철저한 품질관리가 필요하다. 이런 데이터 수집·공유 인프라는 개인이나 기업이 할 수 없으며 국가가 주도적으로 구축해야 한다.

‘국가 바이오 데이터 스테이션’ 구축

마지막으로 데이터 분석 환경 구축이다. 과거에는 데이터가 커지면 고성능 컴퓨터를 구매해 분석 문제를 해결했다. 하지만 데이터가 너무 방대해진 지금은 아무리 고성능 컴퓨터라고 해도 한 대로는 분석은커녕 저장조차 못 한다. 일반적인 인간 유전체 실험에서는 약 6억 개의 서열 단편이 생산된다. 각 단편의 원래 위치는 표준 유전체와 비교해 정렬하는 방식(매핑)으로 알 수 있다.만약 단편을 한 개씩 매핑해 모든 단편의 위치를 파악하려면 수천 년이 걸린다. 즉 빅데이터를 여러 대의 컴퓨터에 분할한 뒤 동시에 데이터 분석을 해야 한다. 그런 뒤 분석 결과를 취합해 유전자 단편들의 전체 지도를 완성한다. 구글의 ‘하둡(Hadoop)’이라는 빅데이터 시스템이 대표적인 예다. 하둡은 표준 크기의 서버들에 데이터를 분산한 뒤 고속처리한다. 인간 유전체 데이터 분석도 이런 시스템을 이용하면 수 시간 내에 해결할 수 있다.

한국생명공학연구원 국가생명연구자원정보센터(KOBIC)는 국내 최대 바이오 데이터센터다. 10PB 저장 공간과 3100개의 중앙처리장치(CPU)를 보유하고 있다. KOBIC는 ‘국가 바이오 데이터 스테이션’을 구축해 국내 바이오 분야에서 생산한 다양한 연구데이터를 수집·공유하는 인프라를 구축하고 있다.

이를 위해 국내 최초로 국내 연구자들과 협력해 바이오 데이터 표준양식 51종을 마련했다. 수집된 데이터는 철저한 전문가 품질 관리와 큐레이션을 통해 관리되기 때문에 처음 접하는 연구자도 쉽게 활용할 수 있다.
또 KOBIC는 국내 연구자들의 빅데이터 분석을 위해 클라우드 기반의 빅데이터 서비스인 ‘바이오 익스프레스’(Bio-Express) 시스템을 개발했다. 국내 연구자들이 필요로 하는 분석 소프트웨어가 설치돼 있어 연구자들이 원하는 분석을 자유롭게 할 수 있는 게 강점이다.