'단백질 전쟁 시작한 빅테크' 메타, 6억개 구조예측 성공

구글 알파폴드는 2억개 예측
올해 7월 구글 관계사 딥마인드는 인공지능(AI) 알파폴드를 활용해 2억1400만개 단백질 구조를 예측하는 데 성공했다고 발표했다. 세계 과학계는 생명체를 구성하는 거의 모든 단백질이 베일을 벗었다고 평가했다.

4달 뒤인 지난 1일(현지시간) 메타(옛 페이스북) 연구진은 세균과 바이러스 등 미생물 관련 단백질 6억개의 구조를 예측한 결과를 논문으로 공개했다. '단백질 구조예측' 분야에서 빅테크들의 기술 전쟁이 본격화되고 있다.

메타, 6억1700만개 단백질 구조 예측

3일 업계에 따르면 메타의 AI 연구진은 최근 6억1700만개가 넘는 단백질의 구조를 예측하는 데 성공했다. 연구 결과는 논문 사전공개 사이트인 바이오아카이브 1일자에 공개됐다.

단백질은 각종 기관과 호르몬, 효소 등을 이루는 인체 핵심 구성 요소다. 정확한 기능을 파악하면 암 등을 치료하고 감염병을 예방할 수 있다. 노화 단백질을 활용하면 이론적으로 노화를 늦추거나 막을 수도 있다.

단백질은 구조에 따라 역할이 달라진다. 단백질이라는 골격을 만들기 위해 생명체는 디옥시리보핵산(DNA)을 설계도로 쓴다. 아데닌(A) 티민(T) 구아닌(G) 시토신(C) 등 4개 염기쌍으로 구성된 DNA는 20개로 구성된 아미노산 서열로 바뀐다. 이 서열에 따라 다시 단백질을 만들면서 생명 활동을 한다.2003년 인간의 DNA 서열을 모두 파악한 게놈프로젝트가 끝난 뒤 과학자들은 이를 활용해 단백질 구조를 파악하는 데 집중해왔다. 설계도를 손에 넣었지만 실제 구조물을 만드는 것은 간단치 않았다. 2차원 아미노산 설계도가 다양한 방향으로 뭉치고 꼬이며 3차원 단백질로 바뀌는 '단백질 접힘' 현상 탓이다.

과학자들은 50여년간 엑스레이나 현미경으로 단백질 결정 등을 파악해 전체 모양을 추정해왔다. 단백질 하나의 모양을 파악하는 데 수개월에서 수년이 걸렸다.

AI를 활용한 단백질 구조 예측 선두주자였던 딥마인드는 알파폴드를 활용해 예측 결과의 정확도를 높이는 데 집중해왔다. 수년 간의 연구 끝에 2020년 7월 생명체를 구성하는 거의 모든 단백질의 구조 예측에 성공했다.

대형언어모델 활용해 속도 높이는 데 집중

메타는 이보다 속도를 높이는 데 초점을 맞췄다. 이를 위해 특정한 문자를 넣으면 문장이나 단어를 자동완성해주는 대형언어모델(large language model)을 활용했다. 이 모델을 활용해 아미노산 서열과 이를 토대로 만들어진 단백질을 학습하도록 했다.

이를 기반으로 단백질 구조의 특정한 아미노산 서열이 가려져도 '자동완성'되는 단백질 '자동완성' 모델을 만들었다. 새 단백질 구조예측 AI 모델에 메타는 'ESM폴드'라는 이름을 붙였다. 이번에 개발된 모델의 정확도는 알파폴드보다는 떨어지는 것으로 알려졌다. 다만 속도가 60배 정도 빠르다는 게 연구진의 설명이다. 메타 연구진은 6억1700만개가 넘는 단백질 구조를 예측하는 데 2주 밖에 걸리지 않았다. 알파폴드는 하나의 단백질 구조를 예측하는 데 수분 정도가 필요한 것으로 알려졌다.

연구진은 ESM폴드를 활용해 흙, 바닷물, 사람의 내장기관, 피부 등에서 나온 세균, 바이러스, 미생물 등의 구조를 분석했다.

버르크하드 로스트 독일 뮌헨공대 교수는 "알파폴드와 비교해 ESM폴드가 어떤 이점을 줄 수 있을지는 아직 의문"이라면서도 "대형언어모델을 기반으로 한 예측을 활용하면 돌연변이가 단백질 구조를 어떻게 바꾸는지 등을 빠르게 파악하는 데엔 도움될 것"이라고 말했다. 알파폴드로는 돌연변이 예측은 불가능한 것으로 알려졌다.그는 "단백질 구조예측이 더 가볍고, 단순하고, 저렴해지고 있다"며 "이런 새로운 가능성의 문이 열렸다"고 평가했다.

이지현 기자 bluesky@hankyung.com