[이승우의 IT인사이드] "번역은 반역" 도전장 내민 AI
입력
수정
지면A29
이승우 테크&사이언스부 기자아일랜드의 대문호 제임스 조이스의 <피네건의 경야>는 역사상 가장 난해한 소설로 손꼽힌다. 소설 전체에 걸쳐 끊임없이 언어를 해체하고 창조하기 때문이다. 워낙 내용이 어렵다 보니 1939년 출간된 이후 50년 넘게 번역본이 나오지 않았다. 1982년 프랑스어 번역본이 최초로 나왔고 1993년에 독일어, 일본어로도 번역됐다. 한국어로는 2002년에 나왔다. 조이스 작품의 한국 최고 권위자로 손꼽히는 고(故) 김종건 고려대 교수가 수십 년의 세월을 들였다. 그가 2012년 개역판과 함께 주해를 냈는데 책에 붙은 주석만 1만1700여 개에 이른다. 언어에 담긴 함의를 이해하는 게 녹록지 않다는 얘기다. 피네건의 경야와 같은 극단적인 사례가 아니더라도 번역은 쉽지 않은 일이다. 오죽하면 “번역은 반역이다(Traduttore, traditore)”란 말이 나왔을까.
무너진 바벨탑을 다시 세우려는 시도는 컴퓨터의 등장과 함께 시작됐다. 2차 세계대전 당시 기계를 이용해 독일군의 암호를 해독하려는 시도가 이뤄졌다. 기계 번역이라는 단어를 만든 것은 미국의 수학자 워런 위버다. 그는 1949년 컴퓨터 알고리즘을 이용해 특정 언어를 다른 나라의 말로 바꿀 수 있을 것이란 내용의 짧은 논문을 내놨다.
IBM 컴퓨터로 250개 단어 번역
기계 번역이 널리 알려진 계기는 1954년 1월 7일 미국 조지타운대와 IBM의 공개 실험이다. 당시 실험에선 거대한 IBM 701 컴퓨터에 러시아어로 된 문장 60개를 입력하자 영어로 번역된 결과물이 출력됐다. 이 모습을 보고 언론들은 찬사를 아끼지 않았다. ‘기적’이라는 표현까지 나왔다. 반응에 고무된 연구진은 3~5년 안에 기계 번역이 대중화될 것이라고 호언장담했지만 현실은 그렇지 못했다.당시 사용된 기술은 ‘규칙 기반 기계 번역’으로 불린다. 특정 단어와 배열 등에 대해 규칙을 만들어 입력하면 기계가 이를 그대로 따라 하는 방식이다. 조지타운대의 공개 실험에는 6개 문법 규칙과 250개 어휘로 구성된 시스템이 활용됐다. 이 범위를 조금만 벗어나도 제대로 된 결과물이 나오지 않았다.
인공신경망·생성 AI로 한계 도전
활용 가능한 수준의 기계 번역 기술이 등장한 것은 반세기 뒤의 일이다. 2000년대 들어 ‘통계 기반 번역’이 등장하면서 사람이 쓸 수 있는 결과물이 나오기 시작했다. 이 방식은 다른 두 언어로 쓰인 수많은 문장을 기계가 학습한 뒤 주어진 상황에서 들어갈 확률이 가장 높은 단어를 제시한다. 단어 단위로 시작해 구(句) 단위로 확대됐다. 초창기의 구글 번역이 이 방식을 썼다. 어순이 비슷한 언어를 번역할 때는 자연스러운 결과물을 얻을 수 있지만 그렇지 않으면 결과물의 퀄리티가 급락한다는 단점이 있다. 구글의 창업자 세르게이 브린이 2004년 한국의 구글 팬이 보낸 메일을 번역했더니 “The sliced raw fish shoes it wishes. Google green onion thing!”이란 말도 안 되는 결과물이 나와서 번역 서비스 개발에 나섰다는 일화도 있다.(원문은 ‘회신 바랍니다, 구글 파이팅!’ 정도로 추측된다.)현재 대세 기술은 인공지능(AI)을 활용한 ‘인공신경망 기계 번역’이다. 단어나 구에서 더 나아가 문장 전체를 기준으로 번역한다. 문장의 맥락을 이해하기 때문에 문법 규칙이 다르거나 어순이 정반대여도 괜찮다. 현재의 구글 번역과 네이버의 파파고, 딥엘 등 주요 번역 서비스가 이 방식을 쓴다. 구글 번역은 133종, 딥엘은 31종, 파파고는 15종의 언어를 번역할 수 있다.
방대한 양의 데이터를 기반으로 한 초거대 AI도 번역에서 뛰어난 성능을 보인다. 단순히 언어에 담긴 정보를 다른 언어로 바꾸는 데 그치지 않고 비즈니스 이메일, 일상 대화 등 다양한 상황에 알맞은 표현으로 바꿔주기도 한다. 누구나 모든 언어와 정보에 접근할 수 있는 날이 머지않았다.