그놈 목소리는 '나'였다…딥보이스로 진화하는 보이스피싱

SK쉴더스 전문 화이트 해커 그룹 EQST와 피싱 공격 시연
무료 오픈소스 활용한 목소리 변조, 실재와 구분 어려워
"기자님, 저는 좋게 작성해주시고 상대 쪽은 거짓 '지라시'라도 상관없으니 끌어내려 주세요. "
"네 좋습니다.

저도 한번 잘 써보겠습니다.

걱정하지 마세요, 의원님."
방송 보도를 가정해 A 의원과 홍 기자의 통화 녹취록을 들어보겠다는 아나운서의 멘트에 이어 나오는 대화에서 나오는 목소리는 의심할 여지 없는 기자 본인의 목소리였다. 국내 보안기업 SK쉴더스의 전문 화이트 해커 그룹 이큐스트(EQST·Experts, Qualified Security Team)가 인터넷상에 떠도는 기자의 영상 속 음성과 통화상 목소리 총 30초 분량을 확보한 뒤 '리얼타임 보이스 체인저'라는 오픈소스 형태의 무료 딥보이스 툴에 40분간 학습시킨 결과물이었다.

딥보이스란 인공지능(AI)의 핵심 기술인 딥러닝(deep learning)과 목소리(voice)의 합성어로, AI 기술을 활용해 특정인의 목소리를 똑같이 내는 기술을 말한다.

기사를 생산하는 기자가 어처구니없는 가짜뉴스에 의한 딥보이스 피해자가 되는 순간이었다. 비록 가상의 상황을 상정한 역할극이었지만, 실재와 구분하기 어려운 기자의 목소리가 방송을 탔다는 사실에 이내 모골이 송연해졌다.
2017년 창설된 EQST는 최근 서울 강남구 삼성동 SK쉴더스 사옥에서 실제 현실에서 나타날 수 있는 딥보이스 피싱 공격을 기자에게 시연했다.

최근 국내외를 가리지 않고 음성과 영상을 위조해 돈을 가로채는 신종 인공지능(AI) 사기가 기승을 부리고 있기 때문이다. 지난해 중국의 한 정보기술(IT) 업체 대표는 입찰을 위해 보증금이 필요하다는 친구와 영상 통화를 하고 친구의 계좌에 430만위안(약 8억원)을 송금했다.

그는 영상 통화 당시 얼굴과 목소리가 친구와 똑같아 전혀 의심하지 않았다.

그러나 이는 사기단이 AI를 이용해 친구의 음성과 얼굴을 위조한 것으로 드러났다.

2021년 아랍에미리트(UAE)의 한 은행은 평소 거래하던 대기업 임원으로부터 전화를 받고 3천500만 달러(당시 환율 약 420억원)를 송금했다.

하지만 이는 딥보이스 범죄였다는 사실이 뒤늦게 밝혀졌다.

이 임원의 목소리를 잘 알았던 은행 측은 한 치의 의심도 없이 거액을 이체했다가 전화 한 통으로 순식간에 수백억원이 털린 것이다.
EQST는 이와 같은 상황을 상정한 딥보이스 피싱 공격도 선보였다.

SK쉴더스 이호석 EQST랩 팀장의 목소리 데이터 40분 분량을 6시간 학습한 리얼타임보이스체인저는 실제 이 팀장의 목소리와 구분이 어려운 딥보이스를 생성해냈다.

이 팀장을 가장한 피싱 공격자는 EQST의 팀원에 전화를 걸어 "밖에 나와 있는데, 급하게 내부 서버에 있는 비밀 자료를 확인해야 한다"며 외부 메일인 구글 지메일 주소로 지금 당장 해당 자료를 보내달라고 요구했다.

전화를 받은 팀원은 이 팀장과 완전히 같은 목소리 변조에 속수무책으로 당할 수밖에 없었다.

이 팀장은 시연 후 "음성 샘플이 긴 경우 합성된 음질이 조금 더 선명했다"면서도 "짧은 샘플을 학습시키더라도 실제 음성과 크게 차이가 나지 않았다"고 설명했다.

그러면서 "딥보이스는 특정인의 말투와 특정 단어 발음 시의 톤까지 똑같이 따라간다"며 "오픈소스로 제공되는 유·무료 툴을 내려받아 30초 분량의 음성 샘플만 확보하면 누구나 딥보이스를 생성할 수 있다"고 지적했다.
AI의 역사에서 혁명적인 도구로 평가받는 챗GPT 또한 피싱 공격에 활용될 수 있다는 사실도 놀라웠다.

EQST는 이날 시연에서 챗GPT의 최신 거대언어모델(LLM)인 GPT-4의 API(응용 프로그램 인터페이스) 기능을 이용해 GPT에 피싱 특화한 프롬프트를 적용하고, 이를 프로그래밍해 피싱 공격 시나리오를 구성했다.

GPT-4 API는 개발자들이 GPT 기능을 사용할 수 있도록 제공하는 인터페이스로, 이를 통해 개발자는 GPT-4를 자신의 모바일 애플리케이션이나 웹 서비스에 통합할 수 있다.

일반 사용자는 월 20달러(약 2만7천원)로 이용할 수 있다.

시나리오는 검사를 사칭해 피해자로부터 이상 거래 내용을 확인하게 한 뒤 검찰 사칭 계좌에 돈을 입금하게끔 하는 내용으로 구성됐다.

글자 약 2만자, A4 용지 30페이지 분량으로 프로그래밍 된 GPT가 이를 참고해 답변하는 방식이다.

아울러 EQST는 문자음성변환(TTS·Text-To-Speech)과 음성 인식 기술을 이용해 실제 피싱 공격(통화)을 하는 것처럼 환경을 구성했다.

피싱 공격을 수행하도록 설정된 GPT는 피해자가 피싱 공격을 의심하지 않도록 답변을 고도화하는 과정을 거쳤다.

EQST가 이 모든 시스템을 구축하는 데는 2시간밖에 걸리지 않았다고 한다.
다만 시연에서 GPT의 대답 생성이 지연되면서 앞선 사례보다 실감이 나는 위협감은 상대적으로 덜한 느낌이었다.

이 팀장은 "원래는 사람이 보이스피싱을 했다면, 이제는 사람 없이 GPT로 보이스피싱을 할 수 있는 시대가 왔다는 점에 주목할 필요가 있다"며 "AI 기술이 발전하면 발전할수록 대답 생성의 딜레이(지연)와 같은 문제는 자연스럽게 극복이 될 것"이라고 짚었다.

과거 챗GPT가 시나리오를 A4 용지 2장 분량에서 이제는 50장을 이해할 수 있을 정도로 AI 기술 발전 속도가 빠르다는 것이다. 이 팀장은 27일 "음성 학습 AI가 일상 대화 수준의 자연어 처리 기술을 선보이며 피싱 공격이 정교화·고도화할 수 있어 각별한 주의가 필요하다"며 "비전문가도 쉽게 공격을 수행할 수 있는 만큼, 개인적 보안 의식을 제고하고 기업은 모니터링을 강화하는 등의 노력이 필요하다"고 강조했다.
/연합뉴스