美 의사 면허 시험을 통과한 챗GPT, 의사라 불러야 할까 [긱스]
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
똑똑한 인공지능(AI), 챗GPT가 미국 의사면허시험(USMLE)에 합격했다는 소식에 전 세계가 떠들썩합니다. 챗GPT가 의료 현장을 얼마나 바꾸게 될 수 있을까요. 헬스케어 스타트업 굿닥의 배진범 전략 책임(Head of strategy)이 한경 긱스(Geeks)를 통해 총 4회에 걸친 연재 기고를 합니다. 의사, 바이오, 의료 행정, 심리 상담에 챗GPT가 어떻게 활용될지, 이해하기 쉽게 짚어봅니다. 첫 글은 USMLE를 통과한 챗GPT에 대한 분석입니다.
챗GPT가 전해주는 충격은 다르다. 실제 위험이 있는 건 아닌지 걱정하기 시작하는 무리와, 긍정적으로 바라보고 습득하지 않으면 도태된다는 무리가 빠르게 나뉘었다. 음성 인식 스피커에도, 알파고에도 끄떡하지 않던 기성세대인 50대 대기업 부장마저 연락이 와 관심을 표할 정도다. “GPT, 그거 모르면 어떻게 되는 것인가” “나 신입 때 엑셀 모르던 꼰대처럼 되는 건가”란 전화 속 말들에서, 대세에 오른 챗GPT의 힘을 직감하고 있다.
이런 챗GPT가 답변하기 어려워하는 분야가 있다. 의료 관련된 행위들이다. 챗GPT를 만든 오픈AI사는 가이드라인을 통해 “의료는 그 답변의 결과가 생명과 직결되기 때문에 본인들이 답변할 수 있는 영역에 해당하지 않는다”며 ‘지원하지 않은 사용 분야’에 해당한다고 선을 그었다. 실제론 다르다. 의료분야의 챗GPT의 도입은 적극적으로 검토되고 있으며, 쓰이고 있으며, 더 쓰일 가능성이 크다. 방대한 학습 결과를 의사·바이오·의료 행정·심리 전문가들이 활용할 방법이 무궁무진하다.
최근 들어 챗GPT가 어려운 시험에 합격하거나 통과했다는 소식은 주목할 만하다. 챗GPT가 치른 MBA와 로스쿨 시험은 면허 시험이 아니지만, ‘USMLE(United States Medical Licensing Examination)’은 미국의 의사들이 실제로 응시하는 면허 시험이다. 3차례 시험으로 이어지는 USMLE는 2년 차 의대생부터 1차 시험에 응시하며, 통과하기 위해 수백 시간이 필요하다. 3차 시험은 의대 졸업생이 도전한다. 진짜 면허 시험을 챗GPT가 통과한 것이다. 이제 우리는 챗GPT를 미국의 의사로 바라보고, 건강을 언제든 맡길 수 있는 휴대폰 안의 주치의로 삼을 수 있는 것일까?
오픈AI가 이 Transformer 기술로 1750억 개의 스킬셋(능력 집합)을 사전 학습하여 질문에 맞는 적절한 답을 만들어내는 것이 바로 GPT이다. 중요한 건 사전 학습이다. 사전 학습의 대상은 이 세상에 존재하는 모든 텍스트가 될 수 있다. 미국의 유명 IT 전문가 베네딕트 에반스의 말을 빌리자면, “도서관에 있는 모든 책을 다 읽어버린 10살짜리 아이”와 같은 챗봇이 탄생한 것이다. 참고로, 챗 GPT는 GPT-3.5에 해당한다. 연내 출시를 예상하는 GPT-4는 100조 개의 스킬셋을 사전 학습하는 것으로 알려진다.
이 아이(챗GPT)에겐 어떤 것을 학습할 지 말지를 사전에 알려줬다. 뒤집어 말하면, 이 아이는 금지한 문서를 빼고는 모든 것을 다 학습했다. MBA와 관련된 문서도, 로스쿨 관련한 문서도 다 읽어보았을 것이다. 의학 전문 서적은 말할 것도 없다. 동서고금 막론하고 백과사전 지식을 가지고 있는 어떤 천재를 데려와도 이 아이의 학습량을 따라잡기는 힘들다.
이 아이에게 우리 생명을 부탁해도 될까? 베네딕트 에반스가 왜 아이라고 표현했는지 생각해 볼 필요가 있다. 지식이라는 건 텍스트의 그럴듯한 나열이 아니다. 어떤 분야는 지식의 나열이 크게 도움이 되기도 하지만 오픈AI의 가이드라인처럼 의료 분야에서는 아니다. 작은 실수가 환자의 생명으로 직결된다. 의료 지식의 나열이 시험 합격에 유효할 수 있겠지만, 의료 행위의 성공 여부에는 큰 도움이 되지 못한다. 의사의 현명한 선택이 있어야 한다. 많은 임상과 경험, 환자 상태에 대한 판단, 숨소리, 분위기, 의료 기술의 수준 등등 텍스트로 표현할 수 없는 수많은 요소들이 의료 판단에 역할을 한다.
악의 없는 거짓말도 서슴지 않지만, 의사 시험은 통과해버린 챗GPT를 어떻게 대해야 하는 걸까? 답은 간단하다. 의사의 판단 아래 환자를 위해 적극 활용해야 한다. 의사가 환자의 치료를 위해서 쓸 수 있는 시간은 제한적이다. 2020년 대한의사협회 의료정책연구소 조사에 따르면, 환자 1명 당 의사의 진료 시간은 평균 11.8분이다. 환자를 파악하기 턱없이 부족한 시간이다.
뛰어난 의사라도 문진만으로 이 정도 시간에 환자에 대한 많은 걸 파악할 순 없다. 의사가 챗GPT와 개인 건강 기록(PHR)을 잘 활용할 수 있다면 환자를 파악하는 시간, 관련 의학 정보를 탐색하는 시간을 비약적으로 줄일 수 있게 될 것이다. 나아가 챗GPT가 지속해서 새로운 연구 결과를 학습해간다면, 환자의 증상과 관련된 새로운 의학 연구 역시 쉽게 알아낼 수 있다. 환자에 대한 경험이나 암묵지가 많지 않은 개원의에게도 큰 도움이 될 것이다. 도서관의 모든 책을 다 읽은 지치지 않는 조수가 곁에 있는 것이다.
챗GPT를 질병 치료 연구에 활용하는 스타트업도 등장했다. 미국 앤씨블헬스는 만성 폐쇄성 폐질환(COPD)를 치료하는 스타트업인데, 연구에 챗GPT를 활용하고 있다. 놀라운 점은 챗GPT가 앤씨블헬스의 데이터를 학습하지 않았음에도 연구에 도움을 줬다는 것이다. 앤씨블헬스는 “챗GPT가 지나치게 일반적인 대답을 내놓아 훌륭하게 연구를 이끌었다 할 순 없다”면서도, “리서치나 기초 작업에 있어 도움을 줬다”고 전했다. 앤씨블헬스는 연구 결과를 대중에게 쉽게 알리는데도 챗GPT를 활용할 계획이다. 의료 분야에서 전문가의 언어와 대중의 언어를 모두 그럴 듯하게 이해해서 말하는 조수가 생긴 것이다.
챗GPT의 활용에 있어서 가장 중요한 점은 무엇을 물을지, 무엇을 들을지가 될 가능성이 크다. 조수에게 잘 묻고, 조수의 말 중 의미 있는 걸 잘 이해하는 역량이 중요해진 것이다. 고학력 의사들은 이 부분에 있어서 어떤 전문 집단보다 강점이 있다. 더 적극적으로 활용해야 하는 이유이다. 물론 의사가 아닌 이들 입장에서는 어떻게 잘 물을지, 어떻게 대답을 이해해야 할지 어려울 수 있다. 이 부분을 공략하는 디지털 헬스케어 솔루션도 점차 세상에 등장하게 될 것이다. 굿닥의 경우에도 10여 년간의 디지털 헬스케어 경험을 바탕으로 GPT 응용 프로그램 인터페이스(API)를 활용한 ‘건강 AI’를 제공하고 있다. 질문과 답을 지속 관리하고 있어 건강과 관련해서 GPT를 간접 경험할 수 있는 솔루션이다.
챗GPT는 의료 분야에 있어서 책임을 지지 않는 엄청나게 똑똑한 조수 그 이상이 되기는 어렵다. 조수는 의료 행위에 일체 책임을 지지 않으며 전문가가 묻는 말에 학습한 것을 그럴듯하게 답변을 해줄 뿐이다. 진실은 의료 전문가가 판단해야 한다. 그럼에도 꾸준하게 도움을 받아야 한다. 조수가 가진 방대한 학습량과 활용도를 의사는 따라잡을 수 없다. 대기업 50대 어느 부장의 관측과 비슷한 결론에 도달하게 된다. 그의 질문에 답변드린다. “업무에서 엑셀을 활용해야 할 지 말지는 이제 누구도 논쟁하지 않는다. 챗GPT도 그렇게 될 것이다. 심지어 의료분야에서도.” 배진범 굿닥 전략 책임(Head of strategy)
IT 관련 산업 전반에서 프로덕트와 데이터를 통해 기업이 어떻게 성장할지, 어떻게 돈을 벌지, 어떻게 전략 지점을 만들지에 대하여 고민하며 전략 PO(Product Owner)로 근무하고 있다. 연세대학교 사회학과를 졸업한 후, 카카오에서는 약 8년간 전사 서비스 전략과 광고 데이터플랫폼, 커머스기획과 전략을 담당했다. 그 후 아모레퍼시픽에서는 디지털 전환 전략을 담당했고, 무신사와 시드(초기) 단계의 스타트업을 거쳐 현재 디지털 헬스케어 기업 굿닥의 전략 PO와 Head를 맡아 제품 기반의 비즈니스 모델 성장을 담당하고 있다.
50대 부장마저 움직이게 한 GPT
2023년은 정보기술(IT) 역사에 있어 챗GPT의 해로 기억될 전망이다. 아이폰을 필두로 한 스마트폰은 세상을 바꿨다. 관심도는 그에 못지 않은 상황이다. 스마트폰 만큼, 챗GPT도 세상을 바꿀 수 있을까? 음성 인식 스피커로 세상이 떠들썩할 때가 있었다. 다소 신기해했지만, 많은 이들이 사용성에 있어 불편함을 말했다. ‘알파고’ 등장에선 다소 충격은 받았지만, 원리를 이해하곤 제한된 가능성에 대해 이내 이해했다.챗GPT가 전해주는 충격은 다르다. 실제 위험이 있는 건 아닌지 걱정하기 시작하는 무리와, 긍정적으로 바라보고 습득하지 않으면 도태된다는 무리가 빠르게 나뉘었다. 음성 인식 스피커에도, 알파고에도 끄떡하지 않던 기성세대인 50대 대기업 부장마저 연락이 와 관심을 표할 정도다. “GPT, 그거 모르면 어떻게 되는 것인가” “나 신입 때 엑셀 모르던 꼰대처럼 되는 건가”란 전화 속 말들에서, 대세에 오른 챗GPT의 힘을 직감하고 있다.
이런 챗GPT가 답변하기 어려워하는 분야가 있다. 의료 관련된 행위들이다. 챗GPT를 만든 오픈AI사는 가이드라인을 통해 “의료는 그 답변의 결과가 생명과 직결되기 때문에 본인들이 답변할 수 있는 영역에 해당하지 않는다”며 ‘지원하지 않은 사용 분야’에 해당한다고 선을 그었다. 실제론 다르다. 의료분야의 챗GPT의 도입은 적극적으로 검토되고 있으며, 쓰이고 있으며, 더 쓰일 가능성이 크다. 방대한 학습 결과를 의사·바이오·의료 행정·심리 전문가들이 활용할 방법이 무궁무진하다.
최근 들어 챗GPT가 어려운 시험에 합격하거나 통과했다는 소식은 주목할 만하다. 챗GPT가 치른 MBA와 로스쿨 시험은 면허 시험이 아니지만, ‘USMLE(United States Medical Licensing Examination)’은 미국의 의사들이 실제로 응시하는 면허 시험이다. 3차례 시험으로 이어지는 USMLE는 2년 차 의대생부터 1차 시험에 응시하며, 통과하기 위해 수백 시간이 필요하다. 3차 시험은 의대 졸업생이 도전한다. 진짜 면허 시험을 챗GPT가 통과한 것이다. 이제 우리는 챗GPT를 미국의 의사로 바라보고, 건강을 언제든 맡길 수 있는 휴대폰 안의 주치의로 삼을 수 있는 것일까?
"도서관의 모든 책을 다 읽은 10살 아이"
가능성을 확인하려면 GPT가 무엇인지 알아야 한다. GPT는 ‘Generative Pre-trained Transformer‘의 약자다. ‘Generative(생성하는)’는 만든다는 뜻이다. 제작엔 ‘Pre-trained(사전 학습된)’ 스킬셋이 활용된다. ‘Transformer’는 구글이 2017년에 공개한 언어 모델이다. 원활한 번역을 위해 개발됐다. 문장이 아니라 문단 내에서 단어의 위치나 빈도를 가지고 그 쓰임을 추정한다. 한 단계 더 진일보한 방식의 언어 규칙 발견 모델이다.오픈AI가 이 Transformer 기술로 1750억 개의 스킬셋(능력 집합)을 사전 학습하여 질문에 맞는 적절한 답을 만들어내는 것이 바로 GPT이다. 중요한 건 사전 학습이다. 사전 학습의 대상은 이 세상에 존재하는 모든 텍스트가 될 수 있다. 미국의 유명 IT 전문가 베네딕트 에반스의 말을 빌리자면, “도서관에 있는 모든 책을 다 읽어버린 10살짜리 아이”와 같은 챗봇이 탄생한 것이다. 참고로, 챗 GPT는 GPT-3.5에 해당한다. 연내 출시를 예상하는 GPT-4는 100조 개의 스킬셋을 사전 학습하는 것으로 알려진다.
이 아이(챗GPT)에겐 어떤 것을 학습할 지 말지를 사전에 알려줬다. 뒤집어 말하면, 이 아이는 금지한 문서를 빼고는 모든 것을 다 학습했다. MBA와 관련된 문서도, 로스쿨 관련한 문서도 다 읽어보았을 것이다. 의학 전문 서적은 말할 것도 없다. 동서고금 막론하고 백과사전 지식을 가지고 있는 어떤 천재를 데려와도 이 아이의 학습량을 따라잡기는 힘들다.
이 아이에게 우리 생명을 부탁해도 될까? 베네딕트 에반스가 왜 아이라고 표현했는지 생각해 볼 필요가 있다. 지식이라는 건 텍스트의 그럴듯한 나열이 아니다. 어떤 분야는 지식의 나열이 크게 도움이 되기도 하지만 오픈AI의 가이드라인처럼 의료 분야에서는 아니다. 작은 실수가 환자의 생명으로 직결된다. 의료 지식의 나열이 시험 합격에 유효할 수 있겠지만, 의료 행위의 성공 여부에는 큰 도움이 되지 못한다. 의사의 현명한 선택이 있어야 한다. 많은 임상과 경험, 환자 상태에 대한 판단, 숨소리, 분위기, 의료 기술의 수준 등등 텍스트로 표현할 수 없는 수많은 요소들이 의료 판단에 역할을 한다.
챗GPT, 환자 파악·연구 보조에 그쳐야
챗GPT는 의학 서적을 잘 외우고 있을 뿐 환자의 병을 이해하고 해답을 던졌다고 볼 수는 없다. 사람이 묻는 말에 학습한 내용 중 가장 그럴 듯할 내용을 말할 뿐이다. 그 의미를 모른다는 점에서 종종 그럴듯하게 거짓말도 서슴지 않는 다점도 기억해야 한다. 물론 그 아이는 그것이 거짓말인지 모른다. 도서관에서 봤을 뿐이다.악의 없는 거짓말도 서슴지 않지만, 의사 시험은 통과해버린 챗GPT를 어떻게 대해야 하는 걸까? 답은 간단하다. 의사의 판단 아래 환자를 위해 적극 활용해야 한다. 의사가 환자의 치료를 위해서 쓸 수 있는 시간은 제한적이다. 2020년 대한의사협회 의료정책연구소 조사에 따르면, 환자 1명 당 의사의 진료 시간은 평균 11.8분이다. 환자를 파악하기 턱없이 부족한 시간이다.
뛰어난 의사라도 문진만으로 이 정도 시간에 환자에 대한 많은 걸 파악할 순 없다. 의사가 챗GPT와 개인 건강 기록(PHR)을 잘 활용할 수 있다면 환자를 파악하는 시간, 관련 의학 정보를 탐색하는 시간을 비약적으로 줄일 수 있게 될 것이다. 나아가 챗GPT가 지속해서 새로운 연구 결과를 학습해간다면, 환자의 증상과 관련된 새로운 의학 연구 역시 쉽게 알아낼 수 있다. 환자에 대한 경험이나 암묵지가 많지 않은 개원의에게도 큰 도움이 될 것이다. 도서관의 모든 책을 다 읽은 지치지 않는 조수가 곁에 있는 것이다.
챗GPT를 질병 치료 연구에 활용하는 스타트업도 등장했다. 미국 앤씨블헬스는 만성 폐쇄성 폐질환(COPD)를 치료하는 스타트업인데, 연구에 챗GPT를 활용하고 있다. 놀라운 점은 챗GPT가 앤씨블헬스의 데이터를 학습하지 않았음에도 연구에 도움을 줬다는 것이다. 앤씨블헬스는 “챗GPT가 지나치게 일반적인 대답을 내놓아 훌륭하게 연구를 이끌었다 할 순 없다”면서도, “리서치나 기초 작업에 있어 도움을 줬다”고 전했다. 앤씨블헬스는 연구 결과를 대중에게 쉽게 알리는데도 챗GPT를 활용할 계획이다. 의료 분야에서 전문가의 언어와 대중의 언어를 모두 그럴 듯하게 이해해서 말하는 조수가 생긴 것이다.
챗GPT의 활용에 있어서 가장 중요한 점은 무엇을 물을지, 무엇을 들을지가 될 가능성이 크다. 조수에게 잘 묻고, 조수의 말 중 의미 있는 걸 잘 이해하는 역량이 중요해진 것이다. 고학력 의사들은 이 부분에 있어서 어떤 전문 집단보다 강점이 있다. 더 적극적으로 활용해야 하는 이유이다. 물론 의사가 아닌 이들 입장에서는 어떻게 잘 물을지, 어떻게 대답을 이해해야 할지 어려울 수 있다. 이 부분을 공략하는 디지털 헬스케어 솔루션도 점차 세상에 등장하게 될 것이다. 굿닥의 경우에도 10여 년간의 디지털 헬스케어 경험을 바탕으로 GPT 응용 프로그램 인터페이스(API)를 활용한 ‘건강 AI’를 제공하고 있다. 질문과 답을 지속 관리하고 있어 건강과 관련해서 GPT를 간접 경험할 수 있는 솔루션이다.
챗GPT는 의료 분야에 있어서 책임을 지지 않는 엄청나게 똑똑한 조수 그 이상이 되기는 어렵다. 조수는 의료 행위에 일체 책임을 지지 않으며 전문가가 묻는 말에 학습한 것을 그럴듯하게 답변을 해줄 뿐이다. 진실은 의료 전문가가 판단해야 한다. 그럼에도 꾸준하게 도움을 받아야 한다. 조수가 가진 방대한 학습량과 활용도를 의사는 따라잡을 수 없다. 대기업 50대 어느 부장의 관측과 비슷한 결론에 도달하게 된다. 그의 질문에 답변드린다. “업무에서 엑셀을 활용해야 할 지 말지는 이제 누구도 논쟁하지 않는다. 챗GPT도 그렇게 될 것이다. 심지어 의료분야에서도.” 배진범 굿닥 전략 책임(Head of strategy)
IT 관련 산업 전반에서 프로덕트와 데이터를 통해 기업이 어떻게 성장할지, 어떻게 돈을 벌지, 어떻게 전략 지점을 만들지에 대하여 고민하며 전략 PO(Product Owner)로 근무하고 있다. 연세대학교 사회학과를 졸업한 후, 카카오에서는 약 8년간 전사 서비스 전략과 광고 데이터플랫폼, 커머스기획과 전략을 담당했다. 그 후 아모레퍼시픽에서는 디지털 전환 전략을 담당했고, 무신사와 시드(초기) 단계의 스타트업을 거쳐 현재 디지털 헬스케어 기업 굿닥의 전략 PO와 Head를 맡아 제품 기반의 비즈니스 모델 성장을 담당하고 있다.