[AI 활용법] AI 활용한 신약 타깃 발굴 방법론
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
남선이 SK C&C 헬스케어그룹 리더
바야흐로 코로나 시대다. 처음엔 이름도 생소했던 신종 코로나바이러스 감염증(코로나19)이란 녀석이 매일 뉴스에서 듣는 일상 단어가 됐다. 과거 한 번도 경험하지 못한 현상들을 코로나 시대라는 말로 체감하고 있다. 특히 특정 산업 영역으로만 여겨지던 백신과 치료제 개발 뉴스에 인류가 귀 기울이고, 그 과정 하나하나에 따라 주식이 요동치는 모습은 다소 생경하기까지 하다.
이런 신약에 대한 기대가 꼭 코로나19에만 국한된 이야기일까. 지구상에는 1만2000여 개 질환이 존재하며 그중 70%는 아직 적합한 치료법이 개발되지 못한 미충족 의료 수요 영역이다. 하지만 신약 개발 분야는 대표적인 고위험·고수익 분야로 알려져 있다. 출발선에 선 신약 후보군 중 0.01%만이 신약 품목허가라는 결승점을 통과한다.
신약 개발을 위해 통상 2조 원의 비용과 10년 이상의 시간이 소요되고 어렵사리 승인된 약물조차도 10개 중 1개 정도만이 투자비를 회수한다. 또한 신약 개발에 투자되는 연구비 대비 실제 신약으로 승인받은 약품의 수를 비교하는 ‘신약 연구 생산성’은 점점 낮아지고 있어 신약 연구 ‘이노베이션 갭’이라는 용어가 제약업계의 화두가 된 지 오래다.
하지만 신약 개발이 실패하는 핵심 요인 중 하나인 부작용의 사전 예측과 약효의 근간이 되는 질병 유발 유전자, 즉 타깃을 발굴하는 단계에서는 AI 기술이 적용돼 성공적으로 실용화된 사례가 없다. 특히 신약 타깃 발굴 분야는 국내 제약사들이 글로벌 대형 제약사 대비 가장 취약한 영역으로 조사됐다. 이번 기고를 통해 신약 개발의 첫 단계이자 글로벌 제약사로 발돋움하는 데 핵심 요소인 신약 타깃 발굴을 효과적으로 지원하는 AI 기반 신약 타깃 발굴 방법론 두 가지를 소개하고자 한다.
총 4단계 과정을 거치게 된다. 먼저 질병 타깃 발굴에 필요한 정보를 데이터베이스(DB)로 구축하기 위해 기존에 잘 정제돼 공개된 DB와 미처 정제되지 않은 논문 정보를 획득한다. 이때 AI 자연어 처리 기술을 활용하면 매일 쏟아져 나오는 논문을 보다 빠르고 정확하게 스캐닝할 수 있다. 이렇게 파악된 ‘질병-유전자-약물’ 등의 생물학적 정보들과 관계 정보를 노드와 에지로 구성된 그래프 형태로 구축한다.
이어 구축된 지식정보 그래프상에서 각 노드들 간 연결구조를 학습하고 질병과 타깃 간 패스와 가중치를 예측하는 AI 알고리즘을 통해 질병과 연관성이 높은 타깃들의 스코어를 제시한다. 이때 뉴럴 네트워크의 어텐션 메커니즘을 사용해 모델의 성능을 높일 뿐만 아니라, 모델이 집중하고 있는 영역을 보여줌으로써 기존 딥러닝 모델의 단점인 설명력 부분이 강화된다.
마지막으로 이러한 일련의 과정이 한 번의 경험으로 끝나는 것이 아니라 사용자가 지속적으로 타깃을 탐색하고 발굴할 수 있도록 플랫폼을 제공한다. 또 플랫폼에서는 AI 예측 결과뿐 아니라 사용자가 확보한 데이터를 이용해 기존 구축된 DB를 추가·보정해 사용자에 특화된 분석을 수행할 수 있다. 이는 사용자 스스로 신약 타깃 관련 다양한 가설을 세우고 가상환경(인실리코·insilico)에서 실험해볼 수 있는 환경을 제공한다. 사용자는 기존 지식 및 정보와 AI을 결합해 새로운 질환 타깃에 대한 인사이트를 얻을 수 있다.
이 플랫폼은 ‘아이클루 앤 애스크(iCLUE&ASK)’다. AI 신약 개발 전문회사인 스탠다임의 애스크(Standigm ASK)를 SK C&C의 제약 AI 플랫폼인 아이클루(iCLUE)에 적용해 개발했다. DB 및 논문 정보 통합을 통해 현재 8000여 종의 질병, 1만2000여 개의 약물, 2만4000여 개 이상의 타깃 정보를 망라한 DB를 갖췄다. 이 DB를 기반으로 앞서 설명한 방법론을 적용해 사용자에게 예측 결과를 제공하고 인터랙티브한 탐색이 가능하도록 했다. 신약 타깃 발굴에 관심 있는 누구나 사이트(https://icluenask.standigm.com)에 접속해 무료로 사용할 수 있다.
여기에는 가천대 길병원 대사성질환 혁신신약개발연구단의 연구 경험과 노하우가 적용됐다. 대사질환은 다양한 치료제의 개발에도 불구하고 유병률은 1%도 감소하지 않고 계속 증가하고 있다. 대사질환 발생의 근본 원인에 근거한 혁신신약 개발 필요성은 꾸준히 제기되고 있다. 특히 암 등 타질환과 달리 환자 조직 유래의 다중체학(multiomics·멀티오믹스) 데이터 확보가 부족한 상황에서 대사질환에 특화된 혁신적인 타깃 발굴 접근방법이 요구된다.
이 방법론에서는 표현형 기반 혁신신약 개발전략을 사용한다. 최근 타깃 유전자와 표현형의 직접적 인과관계를 규명하는 연구가 많아지고 생체 내 유전자 및 기능에 대한 정보가 비약적으로 늘어났다. 이 전략은 동물모델 단계에서 유전자 기능 검증을 통해 유효한 타깃 발굴을 가속화할 수 있다는 관점에서 개발됐다. 이를 구성하는 7개 판단 기준을 기반으로 의사결정 엔진을 만들었다.
그 첫 단계로 유전자 결손 마우스의 표현형 정보를 축적한 DB로부터 대사성 표현형과 관련된 유전자를 추출하고 암, 중추신경계, 심혈관계, 호흡기계 등 주요 부작용을 유도할 수 있는 유전자를 걸러낸다. 이후 실제 약물학적으로 제어 가능한 단백질 또는 유전자를 결손시켰을 때 변하는 표현형과 그 작용기전을 해석할 수 있는 신호전달 네트워크를 분석해 생물학적 의의를 분석한다. 또한 해당 타깃을 조절할 수 있는 약물의 개발 동향을 분석한다. 신규성을 점검하고 임상 성공 가능성을 확인하기 위해 임상 유전체 정보를 분석하고, 최종적으로 후보 타깃을 발굴하는 일련의 과정을 거친다.
연구진은 과거 미국 식품의약국(FDA) 승인 약물의 타깃 발굴 시점에 수집한 데이터로부터 의사결정 엔진의 유효성을 검증했다. 이와 동시에 엔진을 통해 도출된 후보 타깃에 대한 실험적 검증을 거쳐 유력한 타깃 후보 8개를 발굴해 개발 중이다. 또한 사용자가 의사결정 엔진을 구성하는 개별 인자의 가중치를 조절해 후보 타깃의 우선순위를 조절할 수 있도록 하고 인자별 판단 근거를 확인할 수 있게 했다. 사용자는 생물정보학적으로 도출한 타깃에 대해 임상의, 제약 전문가, 생물학 및 오믹스(omics) 전문가 등으로 구성된 전문가 보고서를 제공 받고 추가적으로 실험적 검증을 의뢰할 수도 있다.
이 플랫폼은 iCLUE-TDMD(Target Discovery for Metabolic Disease)로서 가천대길병원과 SK C&C가 공동 개발해 연내 출시 예정이다. 대사성질환에 특화된 타깃 발굴 전 과정을 지원함으로써 체계적이고 손쉽게 타깃 발굴에 접근할 수 있을 것으로 기대된다.
이번에 제시된 두 가지 방법론은 빅데이터·AI 기술을 활용해 이런 과정을 보다 효율적이고 효과적으로 지원한다. 이를 통해 지금까지 연구자 개개인의 역량에 의존하고 파편화돼 진행되던 타깃 발굴 과정이 보다 체계적이면서 확장된 조직적 역량으로 전환될 수 있으리라고 판단한다. 이런 방법론이 플랫폼 형태로 안정적으로 제공돼 지속성을 가질 때 혁신신약 개발 경쟁력으로 자리매김할 수 있을 것이라고 확신한다.
의학, 생물학 등 바이오 분야 전문 파트너와 함께 빅데이터, AI의 디지털 기술 전문성을 융합해 신약 개발 효율성을 높이는 데 기여할 수 있을 것이다. 이제 그 첫발을 내딛는 신약 타깃 발굴 방법론 플랫폼을 통해 국내 및 전 세계 연구진을 만나는 것은 물론 인류의 미충족 의료 수요 해결에 기여할 수 있기를 기대한다. 남선이 SK C&C 헬스케어그룹 리더
SK C&C 헬스케어그룹의 리더로 인공지능(AI) 기반의 타깃 발굴 서비스를 개발하고 있다. 약물 설계 플랫폼, 항생제 처방 어드바이저 등을 모두 AI와 접목해 연구개발 중이다. 정보관리기술사와 공인 스크럼 마스터 등의 자격을 보유한 AI 개발 전문가다.
이런 신약에 대한 기대가 꼭 코로나19에만 국한된 이야기일까. 지구상에는 1만2000여 개 질환이 존재하며 그중 70%는 아직 적합한 치료법이 개발되지 못한 미충족 의료 수요 영역이다. 하지만 신약 개발 분야는 대표적인 고위험·고수익 분야로 알려져 있다. 출발선에 선 신약 후보군 중 0.01%만이 신약 품목허가라는 결승점을 통과한다.
신약 개발을 위해 통상 2조 원의 비용과 10년 이상의 시간이 소요되고 어렵사리 승인된 약물조차도 10개 중 1개 정도만이 투자비를 회수한다. 또한 신약 개발에 투자되는 연구비 대비 실제 신약으로 승인받은 약품의 수를 비교하는 ‘신약 연구 생산성’은 점점 낮아지고 있어 신약 연구 ‘이노베이션 갭’이라는 용어가 제약업계의 화두가 된 지 오래다.
신약 개발의 효율성 높여줄 AI 기술 활용
인간의 생존에 필수적이지만 불확실성이 높은 신약 개발, 그 과정을 좀 더 효율화하고 성공률을 높일 수 있는 방법은 없는 것일까. 최근 이에 대한 방안으로 AI를 활용한 다양한 방법이 시도되고 있다. 신약 개발은 타깃 발굴을 시작으로 후보물질 도출, 비임상·임상시험, 신약 허가 등의 단계를 거친다. AI 기업이 후보물질 도출 단계에 참여해 빠르게 후보물질을 찾아내고 임상시험 단계로 진입하는 사례가 최근 여럿 발표되고 있다.하지만 신약 개발이 실패하는 핵심 요인 중 하나인 부작용의 사전 예측과 약효의 근간이 되는 질병 유발 유전자, 즉 타깃을 발굴하는 단계에서는 AI 기술이 적용돼 성공적으로 실용화된 사례가 없다. 특히 신약 타깃 발굴 분야는 국내 제약사들이 글로벌 대형 제약사 대비 가장 취약한 영역으로 조사됐다. 이번 기고를 통해 신약 개발의 첫 단계이자 글로벌 제약사로 발돋움하는 데 핵심 요소인 신약 타깃 발굴을 효과적으로 지원하는 AI 기반 신약 타깃 발굴 방법론 두 가지를 소개하고자 한다.
❶ 지식 정보 그래프 기반 AI 타깃 발굴 방법론
첫 번째는 지식 정보 그래프 기반 AI 타깃 발굴 방법론이다. 이는 신약 개발을 위해 기존 연구자들이 쌓아올린 지식정보를 어떻게 신약 타깃을 찾는 데 활용할 수 있을까 하는 물음에서 시작됐다.총 4단계 과정을 거치게 된다. 먼저 질병 타깃 발굴에 필요한 정보를 데이터베이스(DB)로 구축하기 위해 기존에 잘 정제돼 공개된 DB와 미처 정제되지 않은 논문 정보를 획득한다. 이때 AI 자연어 처리 기술을 활용하면 매일 쏟아져 나오는 논문을 보다 빠르고 정확하게 스캐닝할 수 있다. 이렇게 파악된 ‘질병-유전자-약물’ 등의 생물학적 정보들과 관계 정보를 노드와 에지로 구성된 그래프 형태로 구축한다.
이어 구축된 지식정보 그래프상에서 각 노드들 간 연결구조를 학습하고 질병과 타깃 간 패스와 가중치를 예측하는 AI 알고리즘을 통해 질병과 연관성이 높은 타깃들의 스코어를 제시한다. 이때 뉴럴 네트워크의 어텐션 메커니즘을 사용해 모델의 성능을 높일 뿐만 아니라, 모델이 집중하고 있는 영역을 보여줌으로써 기존 딥러닝 모델의 단점인 설명력 부분이 강화된다.
마지막으로 이러한 일련의 과정이 한 번의 경험으로 끝나는 것이 아니라 사용자가 지속적으로 타깃을 탐색하고 발굴할 수 있도록 플랫폼을 제공한다. 또 플랫폼에서는 AI 예측 결과뿐 아니라 사용자가 확보한 데이터를 이용해 기존 구축된 DB를 추가·보정해 사용자에 특화된 분석을 수행할 수 있다. 이는 사용자 스스로 신약 타깃 관련 다양한 가설을 세우고 가상환경(인실리코·insilico)에서 실험해볼 수 있는 환경을 제공한다. 사용자는 기존 지식 및 정보와 AI을 결합해 새로운 질환 타깃에 대한 인사이트를 얻을 수 있다.
이 플랫폼은 ‘아이클루 앤 애스크(iCLUE&ASK)’다. AI 신약 개발 전문회사인 스탠다임의 애스크(Standigm ASK)를 SK C&C의 제약 AI 플랫폼인 아이클루(iCLUE)에 적용해 개발했다. DB 및 논문 정보 통합을 통해 현재 8000여 종의 질병, 1만2000여 개의 약물, 2만4000여 개 이상의 타깃 정보를 망라한 DB를 갖췄다. 이 DB를 기반으로 앞서 설명한 방법론을 적용해 사용자에게 예측 결과를 제공하고 인터랙티브한 탐색이 가능하도록 했다. 신약 타깃 발굴에 관심 있는 누구나 사이트(https://icluenask.standigm.com)에 접속해 무료로 사용할 수 있다.
❷ 의사결정 엔진 기반 대사질환 특화 타깃 발굴 방법론
두 번째는 의사결정 엔진 기반 대사질환 특화 타깃 발굴 방법론이다. 이 방법론은 유전자변형마우스와 사람의 표현형 분석 결과, 유전체 연구 결과, 방대한 문헌의 텍스트 마이닝, 부작용 기능성 등 총 7가지 판단 기준을 기반으로 대사질환의 잠재적 타깃을 예측하고 그 근거를 제시한다.여기에는 가천대 길병원 대사성질환 혁신신약개발연구단의 연구 경험과 노하우가 적용됐다. 대사질환은 다양한 치료제의 개발에도 불구하고 유병률은 1%도 감소하지 않고 계속 증가하고 있다. 대사질환 발생의 근본 원인에 근거한 혁신신약 개발 필요성은 꾸준히 제기되고 있다. 특히 암 등 타질환과 달리 환자 조직 유래의 다중체학(multiomics·멀티오믹스) 데이터 확보가 부족한 상황에서 대사질환에 특화된 혁신적인 타깃 발굴 접근방법이 요구된다.
이 방법론에서는 표현형 기반 혁신신약 개발전략을 사용한다. 최근 타깃 유전자와 표현형의 직접적 인과관계를 규명하는 연구가 많아지고 생체 내 유전자 및 기능에 대한 정보가 비약적으로 늘어났다. 이 전략은 동물모델 단계에서 유전자 기능 검증을 통해 유효한 타깃 발굴을 가속화할 수 있다는 관점에서 개발됐다. 이를 구성하는 7개 판단 기준을 기반으로 의사결정 엔진을 만들었다.
그 첫 단계로 유전자 결손 마우스의 표현형 정보를 축적한 DB로부터 대사성 표현형과 관련된 유전자를 추출하고 암, 중추신경계, 심혈관계, 호흡기계 등 주요 부작용을 유도할 수 있는 유전자를 걸러낸다. 이후 실제 약물학적으로 제어 가능한 단백질 또는 유전자를 결손시켰을 때 변하는 표현형과 그 작용기전을 해석할 수 있는 신호전달 네트워크를 분석해 생물학적 의의를 분석한다. 또한 해당 타깃을 조절할 수 있는 약물의 개발 동향을 분석한다. 신규성을 점검하고 임상 성공 가능성을 확인하기 위해 임상 유전체 정보를 분석하고, 최종적으로 후보 타깃을 발굴하는 일련의 과정을 거친다.
연구진은 과거 미국 식품의약국(FDA) 승인 약물의 타깃 발굴 시점에 수집한 데이터로부터 의사결정 엔진의 유효성을 검증했다. 이와 동시에 엔진을 통해 도출된 후보 타깃에 대한 실험적 검증을 거쳐 유력한 타깃 후보 8개를 발굴해 개발 중이다. 또한 사용자가 의사결정 엔진을 구성하는 개별 인자의 가중치를 조절해 후보 타깃의 우선순위를 조절할 수 있도록 하고 인자별 판단 근거를 확인할 수 있게 했다. 사용자는 생물정보학적으로 도출한 타깃에 대해 임상의, 제약 전문가, 생물학 및 오믹스(omics) 전문가 등으로 구성된 전문가 보고서를 제공 받고 추가적으로 실험적 검증을 의뢰할 수도 있다.
이 플랫폼은 iCLUE-TDMD(Target Discovery for Metabolic Disease)로서 가천대길병원과 SK C&C가 공동 개발해 연내 출시 예정이다. 대사성질환에 특화된 타깃 발굴 전 과정을 지원함으로써 체계적이고 손쉽게 타깃 발굴에 접근할 수 있을 것으로 기대된다.
빅데이터·AI 활용 타깃 발굴, 곧 신약 개발 경쟁력으로 자리매김할 것
누군가는 신약 타깃 발굴을 광활한 우주에서 제2의 지구를 찾는 활동에 비유하기도 한다. 수많은 문헌과 다양한 DB에서 질병-타깃-약물 관련 지식을 검색·분석하고 가설을 검증해가는 지난한 과정을 거쳐야 하기 때문이다.이번에 제시된 두 가지 방법론은 빅데이터·AI 기술을 활용해 이런 과정을 보다 효율적이고 효과적으로 지원한다. 이를 통해 지금까지 연구자 개개인의 역량에 의존하고 파편화돼 진행되던 타깃 발굴 과정이 보다 체계적이면서 확장된 조직적 역량으로 전환될 수 있으리라고 판단한다. 이런 방법론이 플랫폼 형태로 안정적으로 제공돼 지속성을 가질 때 혁신신약 개발 경쟁력으로 자리매김할 수 있을 것이라고 확신한다.
의학, 생물학 등 바이오 분야 전문 파트너와 함께 빅데이터, AI의 디지털 기술 전문성을 융합해 신약 개발 효율성을 높이는 데 기여할 수 있을 것이다. 이제 그 첫발을 내딛는 신약 타깃 발굴 방법론 플랫폼을 통해 국내 및 전 세계 연구진을 만나는 것은 물론 인류의 미충족 의료 수요 해결에 기여할 수 있기를 기대한다. 남선이 SK C&C 헬스케어그룹 리더
SK C&C 헬스케어그룹의 리더로 인공지능(AI) 기반의 타깃 발굴 서비스를 개발하고 있다. 약물 설계 플랫폼, 항생제 처방 어드바이저 등을 모두 AI와 접목해 연구개발 중이다. 정보관리기술사와 공인 스크럼 마스터 등의 자격을 보유한 AI 개발 전문가다.