어떤 인공지능이 신약을 만드는가

대다수의 인공지능(AI)은 신약 개발 초기 단계에 투입된다. 전체 과정 중 신약을 평가하는 단계에서 가장 많은 시간과 자금이 투입되지만, 초기 단계가 중요한 이유는 후보물질을 제대로 선정하지 못할 경우, 이후 단계에 투입된 자원을 모두 낭비하게 되기 때문이다.

건물의 머릿돌에 해당하는 신약 후보물질 발굴 단계는 전체 신약 개발의 성패에 절대적인 영향을 미친다. AI는 이 단계에서 성공 가능성을 높이고 시간과 예산을 대폭 절감시킬 수 있을 것이라는 기대를 받고 있다.

구조 기반, 화합물 기반 등 상황에 따라 접근방식 달라
신약 개발 초기에는 기존에 이미 합성돼 있는 화합물 라이브러리나 천연물 라이브러리 등을 이용해 표적 단백질의 기능을 조절하는 물질을 찾는 ‘유효 물질 및 선도물질 발굴’ 단계를 거친다. 이후 약물의 효능, 독성, 약물성이 확보된 선도물질을 최적화해 후보물질을 선정한다.

현재 정보를 알고 있는 화합물은 약 1억 개에 달한다(물론 신약을 개발하는 데 있어 결코 충분한 데이터는 아니다). 사람이 1억 개 화합물 중 타깃 단백질에 결합해 효능을 보이는 물질을 찾는 것은 ‘서울 가서 김 서방 찾기’만큼이나 어려운 일이다.

AI는 화합물 라이브러리에서 가상 검색을 통해 유효물질을 탐색한다. 탐색에는 여러 종류의 AI가 사용되는데, 타깃 단백질의 구조를 아는지 여부에 따라 크게 두 가지 접근법이 존재한다.

구조를 아는 경우에는 단백질의 구조를 기반으로 활성화 부위에 도킹할 수 있는 물질을 찾는 ‘구조기반 신약탐색(SBDD·Structure Based Drug Discover)’이 사용된다. 반면 타깃 단백질의 구조를 모르는 경우, 단백질의 구조가 아닌 화합물의 구조에 의존하게 된다. 이미 활성이 알려진 물질을 이용해 다양한 화합물 데이터베이스에서 약효를 보일 가능성이 큰 물질을 찾는 ‘화합물기반 신약탐색(LBDD·Ligand Based Drug Discovery)’을 하게 된다.

활성 예측하고 약물 디자인하는 AI
접근 방식에는 차이가 있지만, 궁극적으로 AI가 신약 개발에서 해야 하는 역할은 같다. 표적 단백질에 결합해 활성을 갖는 물질을 찾는 것이다. 이런 관점에서 AI는 크게 두 분야의 모델로 나뉜다. 활성도를 예측하는 모델과 신약을 디자인하는 모델이다.

먼저 활성도 예측 모델은 구축된 화합물들의 활성도, 약물성, 독성 등 다양한 분석 데이터를 학습한다. 활성도를 분석하는 이유는 타깃 단백질이 주로 생체 내에서 물질대사, 세포 간 신호전달, 단백질 조절 등 세포 반응경로에서 중요한 역할을 하는 효소이기 때문이다.

여기에는 종속변수와 독립변수와의 관계를 정의하는 회귀모델이 사용되는데, 워낙 복잡한 관계를 가지는 화학분자 공간에서는 변수들 간의 관계가 선형으로 나타나지 않는다. 이 때문에 주로 비선형회귀분석이 활용된다.

좀 더 구체적으로 언급하자면 다수의 결정트리(decision tree)를 이용해 평균 예측치를 출력하는 확률적 분포 기반의 ‘랜덤 포레스트(RF·Random Forest)’가 사용된다. 또 상관관계가 높지만 불순 물 등 방해요소가 많이 포함된 데이터로부터 주성분을 추출하고 이용하는 ‘주성분회귀분석(PCR)’, 입력 데이터의 공분산을 반영해 출력변수와 상관 관계를 최대화시켜 변수 간의 관계를 쉽게 확인하는 ‘부분최소자승법(PLS)’ 등이 있다. 많은 경우 이들을 조합해 사용하기도 한다.

신약 디자인 모델에는 대표적으로 ‘오토인코더’ 방식이 있다. 오토인코더는 입력 데이터(다양한 화합물)를 학습해 특징들로 구성된 복원 가능한 저차원의 잠재변수를 압축하는 머신러닝 방식이다. 기존 화합물을 학습한 뒤 원하는 특성에 대응하는 최적의 데이터를 저차원 잠재변수 공간에서 찾은 뒤, 그 데이터를 출력해 새로운 화합물을 디자인하는 방식이다.

이때 입력 데이터를 잠재변수 공간의 데이터로 변환하는 인코더에는 사물 인식이나 분류에 주로 사용되는 ‘합성곱 신경망(CNN·Convolutional Neural Network)’을 이용한다. 인코더의 신경망 층이 깊어질수록 데이터의 내재된 특성들을 심도 있게 압축하여 최종 벡터 형태인 잠재 데이터로 변환한다.

잠재 데이터를 다시 출력 데이터로 해석해 주는 디코더는 화합물이 문자열을 통해 표현되기에 인코더의 대칭 신경망이나 자연어 처리 등에서 사용되는 ‘순환 신경망(RNN·Recurrent Neural Network)’, 또는 CNN과 RNN을 혼합한 신경망으로 구성된다.

이 외에도 구글이 이세돌과의 바둑 경기에서 이용한 알파고의 알고리즘 기법인 강화 학습 방법이나 생성과 판별을 경쟁적으로 수행하여 모델의 성능을 향상시키는 ‘적대적 생성모델(GAN·Generative Adversarial Net)’ 등을 통한 신약 디자인 모델 개발을 진행하는 곳도 있다.

AI를 이용한 신약 디자인은 구축된 모델에서 타깃이 되는 단백질과 가장 활성도 높은 최적의 잠재 변숫값을 찾고, 이를 디코더를 통하여 화학 분자로 변환함으로써 직접적으로 신약을 디자인하는 방법이다. 이때 화합물의 인코딩 잠재변숫(벡터) 값들을 화학 분자의 정량화된 표기로 활용되기도 한다.

데이터 부족, 화합물 특성 반영하는 표기법 등 아직 장애물도 多
하지만 아직도 AI가 갈 길은 멀다. 우선 학습시킬 데이터가 턱없이 부족하다. AI 기술이 100이라면 데이터가 90이라고 할 정도로 AI 기술의 정확성은 데이터에 절대적으로 의존한다. 하지만 기존 제약사들이나 신약개발연구소에서 보유하고 있는 데이터는 그 자체가 고유자산이기에 공개를 꺼린다.

현재까지 정보가 알려진 합성물은 1억 개 정도인 데, 이는 2000억~4000억 개의 별로 이루어진 우리 은하에서 200개 미만인 태양계의 정보만을 이용해 전 우주를 예측하는 것보다 더 어려운 일이다. 이런 데이터의 한계 때문에 제약회사나 연구소에서 개별 기관에 특화된 화합물을 기반으로 개발된 AI 기술을 범용적으로 적용하기에는 예측 성능이 현저하게 떨어질 수밖에 없는 것이 지금까지의 현실이다.

실제 2020년 국가수리과학연구소에서 AI를 기반으로 인산화효소인 키나아제와 합성 화합물 사이의 활성도 예측 모델인 ‘Extended pQSAR’을 개발한 바가 있다. 이때 159개의 키나아제와 1만3190개의 화학 분자 간의 활성도 값으로 구성된 ChEMBL 데이터 테이블을 사용하였는데, 그 테이블에서는 94.5%의 활성도 값들이 누락되어 주어지지 않았다. 즉 5.5%의 데이터를 이용하여 나머지 94.5%의 데이터 값을 예측하고 이를 기반으로 예측 모델을 생성하였다.

이렇게 생성한 활성도 예측 모델은 예측성능이 0.601의 결정계수 값으로 측정되었는데 기존의 예측성능이 가장 좋은 것으로 평가받는 pQSAR 모델의 예측성능 0.527보다 우수하였다. 결정계수는 0과 1 사이의 값으로서 회귀모델의 예측정확도를 측정하는 데 사용된다. 적은 데이터로 전체를 예측하는 상황이다보니 정확도가 30% 이상만 되면 성능이 좋은 활성도 예측 모델이라고 평가받고 있다.

그나마 공개된 자료들 역시 정형화된 표기법이 아니라 개별 기관 자체의 고유한 형식으로 데이터를 생성하기에 다른 제약회사들의 정보를 활용하기 위해서는 데이터를 정제하는 데도 상당한 시간이 필요하다.

정제 과정을 생략할 수 있도록 공통된 표기법이 필요하나, 아직까지는 개발되지 않았다. 신약 개발 연구에서 기존 실험데이터 기반으로 새로운 약으로서 안전성과 유효성이 높은 합성 화합물을 개발하거나 새로운 분자에 대한 활성도를 예측할 때, 전제되는 원칙은 화학 분자의 구조적 유사성은 유사한 생화학 반응을 유발시킨다는 ‘유사성원리’다.

따라서 컴퓨터를 통한 신약 개발 연구에서는 화학 분자를 컴퓨터상에서 받아들이고 사용할 수 있는 수량적 표기법이 필요하다. 그 정량화된 화학 분자의 표기법이 화학 분자들의 유사성을 얼마나 잘 반영 하느냐에 따라 개발된 기술의 성능이 좌우되는 만큼 화학 분자의 유사성을 잘 반영하는 기법에 관한 연구가 활발히 진행되고 있다.

정부출연연구소인 국가수리과학연구소의 신약개발연구팀은 2018년부터 AI를 활용한 신약후보 선도물질 예측 모델 연구를 진행하고 있다. 최근에는 글로벌 빅파마인 노바티스(미국), 인텔리전스(영국), 텐센트(중국) 등과 함께 다양한 활성도 예측 모델의 성능을 분석하는 국제협동연구를 진행하고 있다. 이런 AI를 통한 화학 구조 기반의 선도물질 예측 연구는 향후 신약 개발 전반에 효율성과 혁신성을 가져다줄 것으로 기대된다.

<저자 소개>

윤강준
KAIST에서 박사학위를 받은 뒤 국가수리과학연구소에서 진행하는 신약 후보물질 개발연구를 주도적으로 진행하고 있다. 수학적 분석을 통한 화학합성물과 단백질과의 활성도를 유발하는 화학 분자의 구조적 특징을 추출하는 연구를 진행하고 있다.

김남두
연세대학교 생명공학과에서 분자모델링을 전공으로 박사 학위를 취득하였으며, 동화약품중앙연구소, 대구첨단의료산업진흥재단 신약개발지원센터에 재직하였고, 컴퓨터를 이용한 신약설계 연구를 30여 년간 수행해오고 있다. 현재는 2017년에 보로노이바이오(주)를 설립하여 분자모델링 및 AI 신약 플랫폼 ‘보로노믹스’를 활용하여 인산화 효소 저해제를 개발하고 있다.

*이 글은 <한경바이오인사이트> 매거진 2021년 5월호에 실렸습니다.

BIO Insight

[ISSUE REPORT] 어떤 인공지능이 신약을 만드는가