[ISSUE COMPANY] 디어젠, 세계 최초로 구글의 ‘트랜스포머’ 기술을 신약 개발에 적용
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
“철저히 AI에 전문성을 두고 시작한 기업이기 때문에 경쟁력이 있습니다. 직원의 상당수도 AI 전문 인력이죠. 그 덕에 구글의 딥러닝 기술인 ‘트랜스포머’를 신약 개발 분야에 적용할 수 있었습니다.”
강길수 디어젠 대표는 네이버 출신의 AI 전문가다. 빅데이터 플랫폼 리더로 8년간 일하다가 AI 신약 개발 사업에 뛰어들었다. 현재 24명의 직원 중 절반에 가까운 인원이 AI 전문인력이다. 강 대표와 함께 회사를 창업한 박성수 최고기술경영책임자(CTO) 역시 과거 딥러닝 기반의 의료영상, 유전체 분석 등의 서비스를 제공하는 딥이메진의 대표를 역임했다.
약물 간 관계 파악해 결합력 예측하는 AI
AI 전문인력이 다수 포진해 있다 보니 신기술의 가능성을 보는 눈도 뛰어났다. 강 대표는 2017년 구글이 ‘트랜스포머’라는 새로운 AI 구조(아키텍처)를 발표하자마자, 바로 신약 개발에 적용해야겠다고 판단했다.
강 대표는 “심지어 개발사인 구글조차 신약 개발에 적용하기 이전부터 트랜스포머의 가능성을 보고 연구를 시작했다”고 했다. 그 결과 2019년 국제학술지 <머신러닝연구회보>에 단백질의 아미노산 서열과 저분자 화합물의 구조 정보만으로도 결합력을 예측할 수 있다는 연구를 발표했다.
논문에 따르면 트랜스포머를 적용한 디어젠의 ‘디얼DTI(DearDTI)’ 기술은 당시 최첨단 AI 모델 보다 약 17.7% 향상된 성능을 보였다. 실제 코로나19가 본격적으로 퍼지기 이전인 지난해 2월, 디어젠은 디얼DTI를 이용해 렘데시비르가 유용한 치료제가 될 것이라고 예측했다. 강 대표는 “3일 만에 이뤄낸 성과”라며 “실제 우리의 AI 기술이 약물 발굴에 도움을 줄 수 있음을 증명한 것”이라고 말했다.
디얼DTI는 단백질과 치료제의 결합력을 예측하는 기술이다. 아미노산 서열 정보만으로 타깃 단백질의 3차원 구조 없이도 저분 자약물과의 결합력을 알아낼 수 있다.
디얼DTI 개발에 사용된 트랜스포머는 ‘관계 지향적(self-attention)’인 AI 구조다. CNN, RNN 등 신약 개발에 사용되는 대다수의 AI는 모두 인간의 뇌세포(뉴런) 구조를 모방한 뉴럴 네트워크 시스템이다. 트랜스포머도 그중 하나다. 다만 CNN과 RNN은 주로 들어오는 정보(인풋 데이터)의 공통적인 패턴만 파악해 구별하는 데 비해 트랜스포머는 인풋 데이터 간의 상관관계를 파악해 정의한다.
AI 번역 시스템을 예로 들어보자. ‘I like a boy that has blue eyes’라는 문장이 있을 때 RNN은 ‘boy’를 기준으로 앞뒤로 한두 단어와의 관계만 학습한다. 이 때문에 ‘파란 눈을 가진 소년’이라는 문장의 핵심 정보를 파악하기 어렵다. 반면 트랜스포머는 ‘boy’가 문장의 각 단어와 어떤 관계가 있는지 수학적으로 모두 파악한다.
박 CTO는 “이런 특성을 ‘글로벌하게 데이터를 본다’고 표현하는데, 신약 개발에서는 매우 중요한 특성”이라고 말했다. 타깃 단백질의 아미노산 서열 길이가 보통 1000여 개로 길기 때문이다. 치료제와 타깃 단백질의 상호 작용을 예측하기 위해서는 글로벌하게 데이터를 파악해야 한다.
여기에 더해 디어젠은 디얼DTI의 정확도를 높이기 위해 공개된 실험 데이터 약 700만 건 중 학습에 필요한 데이터 100만 건을 추렸다. 강 대표는 “학습시키는 데이터의 품질이 AI의 능력을 결정한다”며 “기업 내 생물학 전공 인력과 AI 인력이 머리를 맞대고 데이터를 골라내는 것에서부터 시작한다”고 말했다.
한 번에 여러 요소 최적화하는 CMG 기술
디얼DTI를 포함한 디어젠의 AI 기술이 집약된 플랫폼이 ‘닥터UG(Dr.UG)’다. 닥터UG는 타깃 단백질과 여기에 결합하는 저분자 약물을 발굴하고 최적화까지 신약 개발의 ‘발굴’ 단계 전반을 수행한다.
특히 닥터UG를 구성하는 약물 최적화 관련 기술 CMG(Controlled Molecule Generator)는 올해 4월 세계적인 컴퓨터 분야 학회인 ACM에서 발표해 업계의 큰 관심을 불러모았다.
CMG 기술의 가장 큰 특징은 약물을 개발하는 데 필요한 여러 요소들을 동시에 최적화한다는 점이다. 일반적으로 약물을 최적화하는 AI는 독성, 결합력 등 하나의 요소에 대한 최적화만 수행한다. 강 대표는 “보통 약물을 개발하다 보면 하나의 특성이 좋아지면 다른 특성이 나빠지는 경우가 많다” 며 “CMG 기술은 이런 문제점을 해결하기 위해 개발됐다”고 말했다.
실제 디어젠은 CMG로 임상 단계에 있는 도파민 D2 수용체(DRD2)에 결합하는 28개 약물 중 가장 결합력이 낮은 ‘아니라세탐’을 최적화했다. 그 결과 아니라세탐의 효능을 유지하면서 결합력을 높였다.
닥터UG를 기반으로 독자적인 파이프라인도 개발하고 있다. ‘4D(Deargen Driven Drug Development) 프로그램’이다. 강 대표는 “현재는 SK케미칼, 한독, 아이엔테라퓨틱스, 업테라 등 다양한 바이오텍과 공동연구를 하고 있지만, 동시에 디어젠만의 파이프라인도 준비하고 있다”며 “아직은 약물 탐색 단계지만 항암, 만성질환, 치매 등에 적합한 약물을 발굴할 계획”이라고 말했다.
최지원 기자
*이 기사는 <한경바이오인사이트> 매거진 2021년 5월호에 실렸습니다.
강길수 디어젠 대표는 네이버 출신의 AI 전문가다. 빅데이터 플랫폼 리더로 8년간 일하다가 AI 신약 개발 사업에 뛰어들었다. 현재 24명의 직원 중 절반에 가까운 인원이 AI 전문인력이다. 강 대표와 함께 회사를 창업한 박성수 최고기술경영책임자(CTO) 역시 과거 딥러닝 기반의 의료영상, 유전체 분석 등의 서비스를 제공하는 딥이메진의 대표를 역임했다.
약물 간 관계 파악해 결합력 예측하는 AI
AI 전문인력이 다수 포진해 있다 보니 신기술의 가능성을 보는 눈도 뛰어났다. 강 대표는 2017년 구글이 ‘트랜스포머’라는 새로운 AI 구조(아키텍처)를 발표하자마자, 바로 신약 개발에 적용해야겠다고 판단했다.
강 대표는 “심지어 개발사인 구글조차 신약 개발에 적용하기 이전부터 트랜스포머의 가능성을 보고 연구를 시작했다”고 했다. 그 결과 2019년 국제학술지 <머신러닝연구회보>에 단백질의 아미노산 서열과 저분자 화합물의 구조 정보만으로도 결합력을 예측할 수 있다는 연구를 발표했다.
논문에 따르면 트랜스포머를 적용한 디어젠의 ‘디얼DTI(DearDTI)’ 기술은 당시 최첨단 AI 모델 보다 약 17.7% 향상된 성능을 보였다. 실제 코로나19가 본격적으로 퍼지기 이전인 지난해 2월, 디어젠은 디얼DTI를 이용해 렘데시비르가 유용한 치료제가 될 것이라고 예측했다. 강 대표는 “3일 만에 이뤄낸 성과”라며 “실제 우리의 AI 기술이 약물 발굴에 도움을 줄 수 있음을 증명한 것”이라고 말했다.
디얼DTI는 단백질과 치료제의 결합력을 예측하는 기술이다. 아미노산 서열 정보만으로 타깃 단백질의 3차원 구조 없이도 저분 자약물과의 결합력을 알아낼 수 있다.
디얼DTI 개발에 사용된 트랜스포머는 ‘관계 지향적(self-attention)’인 AI 구조다. CNN, RNN 등 신약 개발에 사용되는 대다수의 AI는 모두 인간의 뇌세포(뉴런) 구조를 모방한 뉴럴 네트워크 시스템이다. 트랜스포머도 그중 하나다. 다만 CNN과 RNN은 주로 들어오는 정보(인풋 데이터)의 공통적인 패턴만 파악해 구별하는 데 비해 트랜스포머는 인풋 데이터 간의 상관관계를 파악해 정의한다.
AI 번역 시스템을 예로 들어보자. ‘I like a boy that has blue eyes’라는 문장이 있을 때 RNN은 ‘boy’를 기준으로 앞뒤로 한두 단어와의 관계만 학습한다. 이 때문에 ‘파란 눈을 가진 소년’이라는 문장의 핵심 정보를 파악하기 어렵다. 반면 트랜스포머는 ‘boy’가 문장의 각 단어와 어떤 관계가 있는지 수학적으로 모두 파악한다.
박 CTO는 “이런 특성을 ‘글로벌하게 데이터를 본다’고 표현하는데, 신약 개발에서는 매우 중요한 특성”이라고 말했다. 타깃 단백질의 아미노산 서열 길이가 보통 1000여 개로 길기 때문이다. 치료제와 타깃 단백질의 상호 작용을 예측하기 위해서는 글로벌하게 데이터를 파악해야 한다.
여기에 더해 디어젠은 디얼DTI의 정확도를 높이기 위해 공개된 실험 데이터 약 700만 건 중 학습에 필요한 데이터 100만 건을 추렸다. 강 대표는 “학습시키는 데이터의 품질이 AI의 능력을 결정한다”며 “기업 내 생물학 전공 인력과 AI 인력이 머리를 맞대고 데이터를 골라내는 것에서부터 시작한다”고 말했다.
한 번에 여러 요소 최적화하는 CMG 기술
디얼DTI를 포함한 디어젠의 AI 기술이 집약된 플랫폼이 ‘닥터UG(Dr.UG)’다. 닥터UG는 타깃 단백질과 여기에 결합하는 저분자 약물을 발굴하고 최적화까지 신약 개발의 ‘발굴’ 단계 전반을 수행한다.
특히 닥터UG를 구성하는 약물 최적화 관련 기술 CMG(Controlled Molecule Generator)는 올해 4월 세계적인 컴퓨터 분야 학회인 ACM에서 발표해 업계의 큰 관심을 불러모았다.
CMG 기술의 가장 큰 특징은 약물을 개발하는 데 필요한 여러 요소들을 동시에 최적화한다는 점이다. 일반적으로 약물을 최적화하는 AI는 독성, 결합력 등 하나의 요소에 대한 최적화만 수행한다. 강 대표는 “보통 약물을 개발하다 보면 하나의 특성이 좋아지면 다른 특성이 나빠지는 경우가 많다” 며 “CMG 기술은 이런 문제점을 해결하기 위해 개발됐다”고 말했다.
실제 디어젠은 CMG로 임상 단계에 있는 도파민 D2 수용체(DRD2)에 결합하는 28개 약물 중 가장 결합력이 낮은 ‘아니라세탐’을 최적화했다. 그 결과 아니라세탐의 효능을 유지하면서 결합력을 높였다.
닥터UG를 기반으로 독자적인 파이프라인도 개발하고 있다. ‘4D(Deargen Driven Drug Development) 프로그램’이다. 강 대표는 “현재는 SK케미칼, 한독, 아이엔테라퓨틱스, 업테라 등 다양한 바이오텍과 공동연구를 하고 있지만, 동시에 디어젠만의 파이프라인도 준비하고 있다”며 “아직은 약물 탐색 단계지만 항암, 만성질환, 치매 등에 적합한 약물을 발굴할 계획”이라고 말했다.
최지원 기자
*이 기사는 <한경바이오인사이트> 매거진 2021년 5월호에 실렸습니다.