[과학과 놀자] 질병 유발 단백질에 대한 신약 후보물질의 생리활성을 예측하는 기술, 인공지능 활용한 가상탐색으로 신약 후보물질 빨리 찾아내

과학 이야기
(63) 컴퓨터를 이용한 신약 개발 기술 '가상탐색'
평균 10년, 1조원의 비용. 일반적으로 알려진 신약 개발에 필요한 기간과 비용이다. 이렇게 많은 시간과 비용이 드는 이유는 신약 후보 물질을 찾는 단계에서 약물의 승인 단계까지 상당한 시간과 비용이 소모되기 때문이다. 신약 개발에는 막대한 시간과 비용이 들어가지만, 성공 가능성은 희박하다. 신약 개발 과정은 질병을 일으키는 단백질을 찾아내고 해당 질병을 치료하기 위한 후보물질 탐색, 전임상, 안전성 및 약효를 평가하는 임상 1, 2, 3상 단계를 거친다. 이와 같은 과정에는 많은 시행착오가 생기며 이로 인해 막대한 연구개발 시간과 비용이 소요될 수 있다.

인공지능을 활용한 연구개발

신약 개발업계 관련자들은 이런 고민을 해결하기 위해 엄청난 노력을 꾸준히 하고 있다. 최근 4차 산업혁명이라는 이슈와 함께 이런 질문에 대한 대안으로 관심받는 기술이 있다. 바로 컴퓨터를 이용한 인공지능 기술이다. 인공지능은 하드웨어 발달 및 병렬처리 알고리즘 개발에 힘입은 컴퓨터 성능 향상, 딥러닝을 기반으로 하는 획기적 데이터 분석 기술 개발, 전 세계를 연결하는 초고속 인터넷 등 다양한 기술 발전의 결과물로서 이미 이미지, 영상, 음성에 대한 인식 수준은 인간을 초월해가고 있으며 그 응용범위가 신약 개발을 포함한 모든 과학 분야의 영역으로 확대되고 있다. 인공지능을 활용하면 개선될 여지가 충분히 크기 때문에, 인공지능 기술은 기존 신약 개발 연구개발 과정의 효율성을 높여 신약 개발 성공률을 높일 수 있을 것으로 기대하고 있다.

컴퓨터 기반의 신약 개발 연구는 지난 수십 년 동안 화합물과 생물학적 타깃(질병 유발 단백질) 간의 상호작용을 컴퓨터, 물리, 화학, 통계 등의 융합 연구 결과물로서 가상탐색(virtual screening) 기술을 개발해 사용해왔다. 가상탐색은 통계적 혹은 기계학습 모델을 이용해 약물-타깃 상호작용을 빠르게 예측한다. 가상탐색 결과에서 약물-타깃 상호작용이 좋지 않은 경우를 제거한 후 신약으로 가능성이 큰 활성 조합만을 다음 단계인 고속대량스크리닝 과정으로 보내 신약 개발 과정의 비용과 시간을 크게 줄일 수 있도록 도와준다.

가상탐색 기술로 신약후보물질 생리활성 예측

기존 대부분의 가상탐색 기술은 화합물의 물성들과 단백질 타깃의 실험적으로 검증된 생리활성값을 이용해 알려지지 않은 화합물의 생리활성을 예측하는 방법을 사용한다. 가상탐색 기술은 화합물과 단백질 타깃을 컴퓨터적으로 표현할 수 있는 분자 특징들을 정량적인 값으로 수치화해 화합물과 타깃 단백질 분자 사이의 상호작용을 모델링하기 위한 입력값으로 사용하는데, 이때 사용되는 입력값 형태에 따라 크게 ‘구조 기반 가상탐색’과 ‘리간드 기반 가상탐색’ 등 두 가지 형태의 가상탐색 기술로 분류할 수 있다.구조 기반 가상탐색 기술은 알려진 타깃 단백질의 구조에 도킹(Docking) 알고리즘을 이용해 타깃의 결합 사이트(Binding site)와 높은 결합 점수를 가지는 후보 리간드 화합물 구조를 찾아내는 방법으로, 결국 최종적으로 더 좋은 결합 점수를 가지는 리간드와 단백질의 구조를 찾아내는 것이 목적이다. 리간드란 생물학적 목적을 위해 생체분자와 복합체를 형성하는 물질을 의미한다. 알려진 대부분의 단백질 구조는 RCSB 단백질 데이터 뱅크에서 확인할 수 있으며, 타깃의 단백질 구조를 알고 있다면 구조 기반 가상탐색 기술을 사용할 수 있을 것이다.

리간드 기반 가상탐색 기술은 타깃 단백질 구조가 없어도 화합물의 구조와 생리활성 정보만을 이용해 예측 모델 개발이 가능하며, 일반적으로 이 과정을 ‘QSAR(Quantitative Structure-Activity Relationship)’이라고 말한다. 성능이 우수한 QSAR 모델을 개발하기 위해서는 분자 표현자가 매우 중요한 요인으로 작용하기 때문에, 현재까지 개발돼 사용되는 모든 분자표현자를 파악하고 확보하는 것이 중요하다. 분자표현자는 크게 ‘Property type’과 ‘Fingerprint type’으로 구분할 수 있으며, 분자표현자가 계산되는데 사용하는 화합물 구조의 차원 정보에 따라 1~3차원 분자 표현자로 구분하기도 한다. 이런 다양한 분자 표현자와 기존의 통계적 혹은 기계학습 모델을 적용해 예측 모델을 개발하던 것이 기존의 리간드 기반 가상탐색 방법이라고 할 수 있다.

딥러닝으로 정확도 높여

최근에는 정교한 인공지능 기술의 하나인 딥러닝 기술을 적용해 개선된 예측 성능과 정확도를 가진 모델이 꾸준히 보고되고 있다. 초창기 컴퓨터 시각 및 자연 언어 처리 분야에서 획기적인 발전을 가져온 후 인기가 높아진 딥러닝 기술은 현재 신약 개발의 가상탐색에서까지 영역을 확장시켜 나가고 있다. 현재까지도 매우 다양하고 새로운 인공지능 방법이 개발돼 보고되고 있으며, 신약 개발 과정의 가상탐색에서도 그 활약이 기대되고 있다.

√ 기억해주세요

강영묵 한국화학연구원 선임연구원
신약 개발 과정은 질병을 일으키는 단백질을 찾아내고 해당 질병을 치료하기 위한 후보물질 탐색, 전임상, 안전성 및 약효를 평가하는 임상 1, 2, 3상 단계를 거친다. 인공지능을 활용한 가상탐색(virtual screening) 기술은 신약 후보물질과 타깃 단백질(질병 유발 단백질)의 상호작용을 빠르게 예측해 연구개발 시간과 비용을 아낄 수 있다.