자동화 로봇 기술 덕분에…10년 걸리던 표현형 데이터 수일 內 확보
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
생명硏 리포트
김하성 한국생명공학연구원 선임연구원
빅데이터 등 4차 산업혁명 기술
생명공학 연구의 필수 도구로
데이터 축적 … AI 모형 구축은
생명공학 지재권 선점하는 의미
김하성 한국생명공학연구원 선임연구원
빅데이터 등 4차 산업혁명 기술
생명공학 연구의 필수 도구로
데이터 축적 … AI 모형 구축은
생명공학 지재권 선점하는 의미
인공지능(AI)과 빅데이터, 지능형 로봇으로 대표되는 4차 산업혁명 기술이 주목받고 있다. 바이오 분야에서도 4차 산업혁명 기술이 편리한 실험 도구를 넘어 기초과학 연구를 위한 필수 조건이 되고 있다. AI는 생물학과 밀접한 관계가 있다. 정확히 말하면 통계학과 유전학의 관계다.
완두콩 실험으로 유명한 그레고어 멘델의 실험은 통계 이론을 정립하는 데 중요한 데이터로 사용됐다. 멘델은 완두콩 실험을 통해 유전인자가 어떤 규칙에 의해 자손에 전달되고 형질을 결정하는지 발견했다. 완두콩 유전인자와 표현형질의 관계를 설명하는 통계 모형에는 ‘오차’라는 개념이 있어 간단한 수식으로 두 요인 사이의 인과 관계를 설명할 수 있다. 좋은 통계 모형은 미지의 생명현상을 적절히 설명하기 위해 필수적인 개념이다.
○AI 모형 구축하려면 유전자 데이터 필요
통계 모형의 기본 원리는 AI 모형(딥러닝 모형)에서도 동일하게 적용된다. 바이오 데이터는 이미지나 텍스트보다 훨씬 더 복잡하고 노이즈가 많다. 따라서 단순한 통계 모형보다는 AI 모형이 바이오 데이터의 복잡성을 설명하고 노이즈 속의 미세한 신호를 찾아내는 데 더 적합하다. 멘델의 데이터로 돌아가서 유전자형과 표현형 두 인자의 관계를 설명하는 통계 모형을 살펴보자. 유전자형은 DNA 서열이고 표현형은 완두콩의 모양이나 색깔 등으로 표현되는 개체의 관측값이다. AI 모형을 사용하려면 학습데이터 셋이 필요하고 결국 표현형으로 라벨링된 유전자형 데이터가 수십만 개 이상 필요하다.
라벨링된 유전자형 데이터를 수집하는 비교적 쉬운 방법은 질병과 같은 표현형이 명확한 환자의 DNA를 해독해서 유전자형을 얻는 것이다. 최근 차세대염기서열분석(NGS) 기술이 발전하면서 표현형이 라벨링된 데이터를 체계적으로 수집할 수 있게 됐는데 유럽, 미국 등에서 수행된 게놈 프로젝트들과 암, 감염질환, 희귀질환 환자를 대상으로 유전체를 수집하는 유럽의 100만 게놈 프로젝트가 대표적인 예다. 한국에서도 포스트게놈 다부처 유전체사업과 한국인 유전체 분석시스템 구축 프로젝트가 시작돼 라벨링된 유전체 데이터 확보가 가속화할 전망이다. ○자동화 로봇 활용해 데이터 생산
헬스케어 분야는 데이터의 중요성에 대한 공감대가 형성돼 대규모 투자가 꾸준히 이뤄지고 있다. 그러나 그 외 생명체, 특히 미생물만 해도 지구상에는 1조 이상의 종이 존재할 것으로 예상되며 이 중 99% 이상이 아직 발견되지 않은 것으로 추정된다. 유전자형과 표현형을 수집하려면 많은 비용과 오랜 시간이 필요하다. NGS와 같은 고속 서열 해독 기술 덕분에 빠르게 축적되는 유전자형 데이터와 달리 시간이 많이 들고 전문가에게 의존하는 유전자 기능을 파악해 표현형을 연구하는 방법이 개선되지 않는다면 AI 수준은 오랫동안 답보 상태에 머물 수밖에 없다.
이런 문제점을 인식한 미국과 유럽의 연구자들은 생물학 실험의 반복적인 작업에 자동화 로봇을 도입하고 복잡한 생물학 데이터를 통합 관리할 수 있는 소프트웨어를 개발해 표현형 데이터를 빠르게 생산하기 시작했다. 특히 합성생물학 기반 기술로 DNA 부품을 조립해 원하는 유전자형을 만들고 자동화 로봇을 통해 그 표현형을 시험하는 방식으로 라벨링 데이터를 획기적으로 빠르게 생산할 수 있게 됐다.
미국 생명공학기업 아임리스는 이런 방식으로 3분마다 새로운 유전자형 균주를 만들어 7년간 15개의 제품을 성공적으로 출시했다. 징코바이오웍스는 부품 기반 균주 디자인 기술로 10억달러의 투자를 유치했으며 특정 유전자형의 표현형을 하루 만에 확인할 수 있는 시스템을 갖추고 있다. 지머젠, 카운실 등도 자동화 로봇 기술을 활용해 바이오 데이터를 빠르게 생산하고 딥러닝을 통해 균주와 단백질을 개량하고 있다.
트랜스크립틱, 리핀 등은 클라우드 기반 합성생물학 소프트웨어를 개발해 DNA 편집뿐 아니라 대규모 표현형 테스트 데이터의 통합 관리를 통해 양질의 대량 데이터를 빠르게 생산하고 분석하는 기술을 구축하고 있다.
○데이터 축적만으로 선진국 추격 가능
생물학과 통계학은 태생적으로 유사한 학문이다. 대부분의 생물학적 현상은 수많은 분자의 상호작용에 의한 확률 현상이고 이는 통계학의 확률과 오차의 개념으로 적절히 설명될 수 있다. 서열 해독 기술과 자동화 로봇 기술의 발전 덕분에 10년 이상 걸리던 유전체 및 표현형 데이터 생산이 불과 수일 내에 가능해졌다. 정보기술(IT) 발달 덕분에 그 속도는 더 빨라질 것이다.
대규모 데이터가 축적될수록 향상되는 AI 모형을 구축하는 것은 미지의 영역이 존재하는 생명과학에 대한 기초지식과 지식재산권을 선점하는 것을 의미한다. 신의 영역에 도전한다고 언론에 소개됐던 크레그벤터연구소의 인공미생물·인공효모합성 프로젝트 등은 모두 자동화 로봇 기술에 기반한 고속 DNA 합성 기술을 활용한 성과다. 선진 연구자들은 생명현상에 대한 지식을 선점하고 이를 응용한 연구를 한 발 먼저 진행하고 있다.
현재 사용되는 대부분의 AI 관련 기술은 공개적으로 사용할 수 있다. 단지 양질의 데이터를 빠르게 수집하기만 해도 선진국의 기초과학 수준을 따라잡을 수 있다.
완두콩 실험으로 유명한 그레고어 멘델의 실험은 통계 이론을 정립하는 데 중요한 데이터로 사용됐다. 멘델은 완두콩 실험을 통해 유전인자가 어떤 규칙에 의해 자손에 전달되고 형질을 결정하는지 발견했다. 완두콩 유전인자와 표현형질의 관계를 설명하는 통계 모형에는 ‘오차’라는 개념이 있어 간단한 수식으로 두 요인 사이의 인과 관계를 설명할 수 있다. 좋은 통계 모형은 미지의 생명현상을 적절히 설명하기 위해 필수적인 개념이다.
○AI 모형 구축하려면 유전자 데이터 필요
통계 모형의 기본 원리는 AI 모형(딥러닝 모형)에서도 동일하게 적용된다. 바이오 데이터는 이미지나 텍스트보다 훨씬 더 복잡하고 노이즈가 많다. 따라서 단순한 통계 모형보다는 AI 모형이 바이오 데이터의 복잡성을 설명하고 노이즈 속의 미세한 신호를 찾아내는 데 더 적합하다. 멘델의 데이터로 돌아가서 유전자형과 표현형 두 인자의 관계를 설명하는 통계 모형을 살펴보자. 유전자형은 DNA 서열이고 표현형은 완두콩의 모양이나 색깔 등으로 표현되는 개체의 관측값이다. AI 모형을 사용하려면 학습데이터 셋이 필요하고 결국 표현형으로 라벨링된 유전자형 데이터가 수십만 개 이상 필요하다.
라벨링된 유전자형 데이터를 수집하는 비교적 쉬운 방법은 질병과 같은 표현형이 명확한 환자의 DNA를 해독해서 유전자형을 얻는 것이다. 최근 차세대염기서열분석(NGS) 기술이 발전하면서 표현형이 라벨링된 데이터를 체계적으로 수집할 수 있게 됐는데 유럽, 미국 등에서 수행된 게놈 프로젝트들과 암, 감염질환, 희귀질환 환자를 대상으로 유전체를 수집하는 유럽의 100만 게놈 프로젝트가 대표적인 예다. 한국에서도 포스트게놈 다부처 유전체사업과 한국인 유전체 분석시스템 구축 프로젝트가 시작돼 라벨링된 유전체 데이터 확보가 가속화할 전망이다. ○자동화 로봇 활용해 데이터 생산
헬스케어 분야는 데이터의 중요성에 대한 공감대가 형성돼 대규모 투자가 꾸준히 이뤄지고 있다. 그러나 그 외 생명체, 특히 미생물만 해도 지구상에는 1조 이상의 종이 존재할 것으로 예상되며 이 중 99% 이상이 아직 발견되지 않은 것으로 추정된다. 유전자형과 표현형을 수집하려면 많은 비용과 오랜 시간이 필요하다. NGS와 같은 고속 서열 해독 기술 덕분에 빠르게 축적되는 유전자형 데이터와 달리 시간이 많이 들고 전문가에게 의존하는 유전자 기능을 파악해 표현형을 연구하는 방법이 개선되지 않는다면 AI 수준은 오랫동안 답보 상태에 머물 수밖에 없다.
이런 문제점을 인식한 미국과 유럽의 연구자들은 생물학 실험의 반복적인 작업에 자동화 로봇을 도입하고 복잡한 생물학 데이터를 통합 관리할 수 있는 소프트웨어를 개발해 표현형 데이터를 빠르게 생산하기 시작했다. 특히 합성생물학 기반 기술로 DNA 부품을 조립해 원하는 유전자형을 만들고 자동화 로봇을 통해 그 표현형을 시험하는 방식으로 라벨링 데이터를 획기적으로 빠르게 생산할 수 있게 됐다.
미국 생명공학기업 아임리스는 이런 방식으로 3분마다 새로운 유전자형 균주를 만들어 7년간 15개의 제품을 성공적으로 출시했다. 징코바이오웍스는 부품 기반 균주 디자인 기술로 10억달러의 투자를 유치했으며 특정 유전자형의 표현형을 하루 만에 확인할 수 있는 시스템을 갖추고 있다. 지머젠, 카운실 등도 자동화 로봇 기술을 활용해 바이오 데이터를 빠르게 생산하고 딥러닝을 통해 균주와 단백질을 개량하고 있다.
트랜스크립틱, 리핀 등은 클라우드 기반 합성생물학 소프트웨어를 개발해 DNA 편집뿐 아니라 대규모 표현형 테스트 데이터의 통합 관리를 통해 양질의 대량 데이터를 빠르게 생산하고 분석하는 기술을 구축하고 있다.
○데이터 축적만으로 선진국 추격 가능
생물학과 통계학은 태생적으로 유사한 학문이다. 대부분의 생물학적 현상은 수많은 분자의 상호작용에 의한 확률 현상이고 이는 통계학의 확률과 오차의 개념으로 적절히 설명될 수 있다. 서열 해독 기술과 자동화 로봇 기술의 발전 덕분에 10년 이상 걸리던 유전체 및 표현형 데이터 생산이 불과 수일 내에 가능해졌다. 정보기술(IT) 발달 덕분에 그 속도는 더 빨라질 것이다.
대규모 데이터가 축적될수록 향상되는 AI 모형을 구축하는 것은 미지의 영역이 존재하는 생명과학에 대한 기초지식과 지식재산권을 선점하는 것을 의미한다. 신의 영역에 도전한다고 언론에 소개됐던 크레그벤터연구소의 인공미생물·인공효모합성 프로젝트 등은 모두 자동화 로봇 기술에 기반한 고속 DNA 합성 기술을 활용한 성과다. 선진 연구자들은 생명현상에 대한 지식을 선점하고 이를 응용한 연구를 한 발 먼저 진행하고 있다.
현재 사용되는 대부분의 AI 관련 기술은 공개적으로 사용할 수 있다. 단지 양질의 데이터를 빠르게 수집하기만 해도 선진국의 기초과학 수준을 따라잡을 수 있다.