구글의 자회사 딥마인드는 알파폴드2라는 단백질 구조예측 소프트웨어를 통해 단백질 구조 예측대회 ‘CASP14’에서 놀라운 결과를 보였다. 지난 7월 연구팀은 알파폴드2에 관한 자세한 논문과 작동원리, 코드 등을 공개했다. 알파폴드2가 어떤 방법으로 단백질 구조를 정밀하게 예측할 수 있었는지를 살펴보자.

2020년 12월 구글의 자회사인 딥마인드가 2년에 한 번씩 열리는 단백질 구조 예측 대회인 CASP14(Critical Assessment of protein Structure Prediction)에 참가해 놀라운 결과를 보였다. 이들의 결과는 기존 학계의 단백질 구조 예측 성과를 훨씬 뛰어넘는 것이었다. 20세기 과학의 난제로 일컬어지든 단백질 서열로부터 단백질의 3차원 구조 예측 문제가 사실상 해결됐다는 평가를 받기도 했다. 그렇다면 딥마인드알파폴드2의 단백질 구조 예측은 기존 단백질 구조 예측 방법론과 어떻게 달랐기에 이러한 결과를 낳았을까.

사실 알파폴드2가 정확히 어떻게 구현됐는지에 대한 설명이 없었고, 알파폴드2의 소프트웨어도 공개되지 않은 상태에서 이의 정확한 작동원리를 알기 어려웠다. 그러나 2021년 7월 딥마인드는 알파폴드2의 작동원리를 상세히 기술하는 두 편의 논문을 <네이처>에 발표했다. 실제로 다른 연구자가 실행해 볼 수 있도록 알파폴드2의 코드를 공개하자 그동안 미스터리에 쌓였던 알파폴드2의 실체가 등장했다.

이번 달에는 딥마인드에서 발표한 알파폴드2의 논문을 통해 알파폴드2의 간략한 작동원리와 이들이 단백질 구조 규명에 미친 영향, 그리고 이것이 앞으로의 생물학 및 생명공학에 어떤 영향을 줄 것인지, 그리고 알파폴드2의 한계에 대해서 개괄해보도록 한다.

알파폴드에 의한 매우 정확한 단백질 구조 예측의 원리
Highly accurate protein structure prediction with AlphaFold

저널 네이처 (IF 49.962)
게재일 2021년 7월 15일
doi.org
10.1038/s41586-021-03819-2

2021년 8월 공개된 딥마인드의 논문에서는 알파폴드2가 기존 단백질 구조 예측방법에 비교해 어떻게 더 정확한 구조 예측을 할 수 있는지에 대해 자세히 기술하고 있다. 일단 알파폴드2가 단백질 서열로부터 단백질의 3차원 구조를 예측하기 위해서 제일 먼저 하는 일은 예측 대상인 단백질 서열을 이용해 단백질 데이터베이스에서 유사 서열을 검색해 서열다중정렬(MSA·Multiple Sequence Alignment)을 만들고, 유사 서열의 단백질 구조가 있는 경우 이 구조를 참고해 단백질 아미노산 간 상호 관계를 분석하는 것이다.

왜 MSA가 구조 예측에 중요한가. 결국 단백질 구조 예측은 1차원적인 서열 정보를 통해 각각의 아미노산이 다른 위치에 있는 아미노산과 어느 정도의 거리를 가졌는지를 예측하는 것이다. 그런데 3차원 구조에서 인접하고 있는 두 개의 아미노산은 서로 다른 생물에서 돌연변이에 의해 아미노산이 변해도 이에 상응하게 같이 변하는 성질이 있다.

가령 24번째 아미노산이 글루탐산이고, 48번째 아미노산이 라이신이라서 서로 이온 결합으로 상호작용을 이루고 있고 이것이 단백질 구조에 중요하다고 가정해보자. 24번째 아미노산이 글루탐산에서 라이신으로 변하게 된다면, 48번째의 아미노산 역시 라이신에서 글루탐산으로 변하는 것처럼, 서로 쌍을 형성하며 변할 필요가 있다. MSA를 분석해 진화과정 속에서 서로 공변화(covariation)를 하는 아미노산 쌍을 찾아내고, 이들이 상호작용을 한다고 간주하고, 구조 예측을 수행하는 방법은 알파폴드2 이전에도 최근 몇 년간의 단백질 구조 예측방법의 근간을 이루고 있었다.

알파폴드2 역시 제일 먼저 MSA를 구축하게 된다. 그러나 기존 방법론에서는 이러한 MSA를 통계학적인 방법론으로 분석해 서로 공변화를 하는 아미노산 쌍을 찾아내는 것에 그쳤다면 알파폴드는 MSA와 단백질 구조 정보로 얻은 아미노산 간 상호작용 정보를 에보포머(Evoformer)라는 딥러닝 네트워크로 분석해, 보다 정확한 아미노산 간 상호작용을 분석한다. 또한 동시에 MSA 자체를 수정하는 것을 반복함으로써 아미노산 간 상호작용 분석을 반복하게 된다.

한마디로 단백질의 진화과정이 표현된 서열정보(MSA)를 최대한 딥러닝을 이용해 단백질 구조 정보를 끌어내는 것이 알파폴드2의 단백질 예측의 시작이라고 할 수 있다. 이러한 딥러닝을 위해서 알파폴드2는 이미 실험적으로 얻어진 단백질 구조와 서열정보를 이용한 학습을 통해 딥러닝 네트워크를 구축하게 된다.

이렇게 MSA와 단백질 구조를 통해 업데이트된 아미노산 간 상호작용 정보를 이용해 알파폴드2는 직접 단백질을 구성하는 아미노산의 3차원 좌표를 예측한다. 기존 딥러닝을 이용한 단백질 구조 예측방법 및 2018년의 알파폴드1에서는 아미노산 간 상호작용 거리를 제약조건(constraint)으로 삼아, 경사하강법(gradient descent)에 의해서 가장 최적 에너지를 가지는 단백질 구조를 계산했다. 그러나 알파폴드2에서는 이러한 방법을 사용하지 않고 직접 딥러닝 네트워크를 이용한 구조 예측을 시도했다.

알파폴드2에서는 단백질의 아미노산 결합을 일종의 삼각형의 연속으로 간주하고, 각각의 회전각을 아미노산 간 상호작용 정보를 이용해 예측한다. 이 과정은 반복적으로 진행되며, 딥마인드가 논문의 보조 자료로 공개한 전체 예측과정을 살펴보면, 처음에는 물리학적으로 의미 없는 형태를 하고 있는 아미노산 간 상호작용이 구조 모듈의 반복과정에 의해서 단백질 접힘의 과정이 재현되고 있음을 볼 수 있다.

이렇게 에보포머와 구조 모듈 두 개의 딥러닝 연산과정은 총 3번 반복된다. 즉 예측되는 구조 결과물은 다시 처음의 과정으로 반복돼 단백질의 아미노산 간 상호작용의 정보로 사용되고, 이 정보는 MSA를 개선하는 데 이용된다. 이러한 반복 과정을 통해 단백질의 구조 예측의 정확도는 더욱 높아진다.

그렇다면 예측된 구조의 정확도는 어떻게 평가할 수 있을까. 알파폴드2에서는 pLDDT(predicted Local-Distance Difference Test)라는 척도로 단백질의 특정한 아미노산 위치에서의 구조 예측 정확도를 예측할 수 있다. 이를 통해 알파폴드2의 예측에서 신뢰도가 있는 부분과 그렇지 않은 부분을 식별할 수 있게 됐다.

CASP14에서 알파폴드2가 예측한 단백질 구조와 실험적인 구조 예측값의 정확도(단백질의 알파 탄소 기준으로 실험 구조와의 차이인 root mean square derivation으로 표현한다)의 평균값은 0.96Å로서 두 번째로 정확한 예측방법의 경우 2.8Å에 비해서 현저하게 정확한 값이다. 알파폴드2는 단순히 단백질의 전반적인 구조뿐만 아니라 아미노산의 사이드체인까지 매우 정확하게 예측하며, 이는 기존 예측 방법에서 기대할 수 있는 정확도를 훨씬 뛰어넘는, 실험적으로 결정된 구조의 오차 정도에 해당하는 매우 정리한 예측이다.

그렇다면 알파폴드2의 딥러닝 학습에 사용되지 않은 새로운 단백질 구조에 대해 어떻게 예측을 할까. 알파폴드2의 딥러닝 학습에 이루어진 이후에 새롭게 단백질 구조 데이터베이스에 등록된 구조에 대해서도 실험으로 결정된 구조에 대한 예측 정밀도는 1.4Å의 정확도로 예측이 가능했다.

결론적으로 알파폴드2는 단백질 구조에 대한 물리학적·생물학적 지식을 통합해 구현된 새로운 기계학습 방법론으로써 기존 단백질 구조 예측 방법론의 예측 성능을 훨씬 뛰어넘는 혁신적인 단백질 구조 예측을 가능하게 됐다. 특히 알파폴드2의 코드는 모두 오픈소스로 공개돼 이미 많은 연구자가 단백질 구조 예측에 사용하고 있으며, 알파폴드2가 아직까지 제공하지 못하는 예측 기능을 개선하기 위한 시발점으로 활발하게 사용되고 있다.

알파폴드2에 의한 인간 단백질체 수준에서의 정확한 단백질 구조 예측
Highly accurate protein structure prediction for the human proteome

저널 네이처 (IF 49.962)
게재일 2021년 7월 22일
doi.org 10.1038/s41586-021-03828-1

수십 개의 CASP14의 예측 문제를 성공적으로 예측할 수 있다는 것을 확인한 다음, 딥마인드 연구팀은 인간의 약 2만 종에 달하는 전체 단백질체 수준에서 구조 예측에 도전했다. 현재의 알파폴드2는 아미노산 개수로 약 2700개 이상의 단백질에는 기술적으로 예측에 어려움이 있으므로 그 이하 크기의 단백질에 대해서 예측을 시도했으며, 이는 인간 전체 단백질 중 98,5%를 포함한다.

이렇게 예측된 단백질 구조 중 전체 아미노산 기준으로 약 58%에 대해서 신빙성이 높은 예측이 나왔으며, 그중 36%는 아주 높은 확실성으로 예측이 가능했다. 그렇다면 아직 예측하지 못한 42%는 어떤 부분일까. 이러한 부분은 일정한 단백질 구조를 형성하지 못하는, 내재적으로 비구조적인 부분(intrinsically disordered region)으로 보이며, 실제로 기존 단백질의 비구조적인 부분을 예측하는 예측방법과 알파폴드2의 구조 예측 신뢰도의 척도는 좋은 상관관계를 보여주었다.

실제로 이러한 인간 단백질체 수준에서의 구조 예측을 통해서 생물학적으로 그 기능과 중요성이 잘 알려져 있다. 하지만 아직 실험적인 방법으로 구조가 규명되지 않은 몇 종류의 단백질 구조를 성공적으로 예측하는 데 성공했고, 예측된 구조는 그동안의 생물학적·생화학적인 실험 결과를 잘 설명해주는 것을 확인했다.

그 예가 글루코스 합성의 첫 단계를 촉매하는 효소인 글루코스-6-인산화효소다. 단백질 구조 예측과 기존 구조와의 구조 분석을 통해 효소의 활성자리를 정확히 예측할 수 있었다.

또 다른 예로 보여준 것이 몸속에서 과잉의 에너지를 지방으로 저장하는 첫 단계를 촉매하는 다이오실글리세롤 O-아실전이효소2라는 단백질이다. 예측된 구조를 이용해 이미 알려진 이 효소에 대한 저해제를 가상 결합(docking)할 수 있었고, 이 저해제가 어떻게 효소를 저해하는지에 대한 가설을 설정할 수 있었다.

이렇게 인간의 거의 모든 단백질에 대해서 어느 정도 믿을 만한 구조 정보를 얻을 수 있게 됨으로써, 단백질 구조가 아직 실험적으로 풀리지 않은 수많은 단백질에 대해서 실험 없이 당장 구조 기반으로 수많은 가설을 세우고, 이를 테스트해볼 수 있게 됐다.

가령 신약 개발을 목표로 하는 연구자인데, 자신이 목표로 하는 표적 단백질의 구조가 아직 규명되지 않았다면, 알파폴드2가 예측한 구조를 참 조해 도킹 등의 방법론을 이용해 이를 저해하는 화합물을 가상 스크리닝해볼 수 있을 것이다. 혹은 생물학적인 기능을 연구하는 연구자라면, 예측된 단백질 구조에 근거해 단백질의 기능을 특이적으로 저해할 수 있는 돌연변이체를 설계하고, 이를 통해 단백질의 기능을 검증해볼 수 있을 것이다.

이러한 딥마인드의 구조 예측 결과는 다른 10여 종의 모델 생물의 구조 예측 결과와 함께 단백질 구조 데이터베이스인 유니플롯(Uniprot)을 통해서 제공되고 있다.

그렇다면 알파폴드2의 단백질 구조 예측은 현재 어떤 한계를 지니고 있으며, 신약 개발 등에 이러한 예측이 좀 더 활용되기 위해서는 어떤 부분에서의 발전이 필요할지에 대해서 알아보도록 하자.

일단 알파폴드2에 의한 구조 예측은 현재까지는 단일 가닥의 단백질의 구조 예측으로 한정돼 있다. 그러나 실제로 세포 내에 있는 수많은 단백질의 상당수는 단일 가닥 하나로만 구성된 것은 아니며, 같은 종류의 단백질 가닥이 여러 개, 혹은 다른 종류의 단백질 수십 개가 모여서 생물학적인 기능을 가지는 구조를 형성하기도 한다. 따라서 알파폴드2의 구조 예측만으로 세포 내에 있는 모든 단백질, 특히 여러 종류의 단백질 가닥이 모여서 이루어진 단백질 거대 구조 복합체의 예측을 할 수 있는 것은 아니다.

특히 요즘 구조생물학의 주 탐구 분야인 단백질 거대구조 복합체의 경우 앞으로도 초저온 전자현미경(Cryo-EM) 등과 같은 실험적인 방법론에 의존할 것이다. 서로 다른 단백질 가닥이 어떻게 결합해 복합체를 형성하는지를 예측하는 것은 단백질 구조 예측의 다음 주요 도전과제가 될 것으로 생각된다.

물론 현재 상태에서도 알파폴드2는 단백질 거대 구조 복합체의 각각의 구성요소 생김새를 성공적으로 예측하고 있고, 단백질 간 상호작용의 예측력도 제한적으로 있다는 보고도 있으므로, 단백질 복합체 구조의 예측은 빠르게 진전될 것으로 보인다. 그리고 알파폴드2를 이용한 구조 예측은 X선 결정학이나 초저온 전자현미경법 등에 의한 구조결정 과정 중에서 모델 구축에 필요한 신빙성 있는 모델을 제공함으로써, 실험적인 방법에 의한 구조 결정을 가속할 것이다.

그리고 알파폴드2가 예측하는 단백질 구조는 현재 실험적으로 예측돼 단백질 구조 데이터베이스에 기탁된 구조정보에 의해서 트레이닝된 뉴럴넷에 의해서 형성되고, 단백질의 실제 물리화학적 상태나 세포 내에서의 상태는 인식하지 못한다. 가령 많은 단백질은 세포 내에서 다양한 상호작용 상대와 만나서 구조가 변하며 이는 단백질의 생물학적인 기능에 필수적이다.

그러나 현재 알파폴드2에 의해서 예측되는 구조는 구조 데이터베이스에 가장 높은 확률로 존재하는 구조를 반영할 가능성이 높으며, 기질 혹은 상호작용하는 단백질에 따라 변하는 단백질 구조를 예측하지는 못한다. 이에 항체와 단백질의 상호 결합구조 예측 등과 같이 많은 바이오텍이 관심 있을 만한 응용은 현재로서는 어렵다.

그리고 알파폴드2의 예측 대상은 단백질에 한정돼 있으며, 단백질이 아닌 생체 고분자(핵산, 탄수화물, 지질)나 많은 제약회사들이 관심 있는 소분자 약물 후보물질들과 단백질과의 결합 구조 예측은 현재의 알파폴드2 만으로는 불가능하다.

결론적으로 알파폴드2에 의한 정확한 단백질 구조 예측은 분명히 그동안 수십 년의 단백질 구조 예측 연구의 수준을 한 번에 업그레이드했고, 구조생물학 분야를 한 번에 크게 진보시킨 혁신임이 분명하다. 그러나 현대 생물학 및 생명공학, 특히 신약 개발에는 현재의 알파폴드2에서 신빙성 있게 예측할 수 있는 단일 아미노산 가닥의 구조 정보 이상의 정보가 필요하다는 것 역시 인식할 필요가 있다.

앞으로의 구조 예측 연구는 앞에서 기술한 것과 같이 실제로 단백질의 구조 정보를 응용해 의약품 등을 개발하고자 할 때 요구되는 여러 가지 사항들, 즉 소분자 물질과 단백질 간 상호작용의 정확한 예측, 단백질 간 상호작용 예측, 디자인된 단백질 구조의 정확한 예측 등의 문제를 해결하는 방향으로 집중될 것이며, 이러한 것들의 진보가 있게 된다면, 발전된 구조 기반 예측은 실제로 신약 개발 등 우리 삶에 직접 영향을 미칠 많은 파급효과를 가져올 것으로 예상된다.
<저자 소개>

남궁석
고려대 농화학과를 졸업한 뒤 동 대학원에서 생화학 전공으로 석사학위와 박사학위를 받았다. 미국 예일대와 펜실베이니아대에서 박사 후연구원을 했다. 2013년부터 2017년까지 충북대 농업생명과학대 축산식품생명과학부 초빙교수로 재직했다. 지금은 Secret Lab of Mad Scientist(SLMS)라는 이름으로 과학 저술 및 과학 관련 컨설팅 활동을 하고 있다. <과학자가 되는 방법>, <암 정복 연대기>의 저자다.

*이 글은 <한경바이오인사이트> 매거진 2021년 10월호에 실렸습니다.