[토요칼럼] AI 번역기가 엉터리 문장을 토해낼 때
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
언어는 시대 모습을 담아
세월의 흐름과 함께 변해
AI 성능은 학습 자료에 좌우
韓 사전, 개정되지 못하고
어학·수학 교육은 지지부진
'투자 없는 결실' 꿈꾸지 말아야
김동욱 오피니언부장
세월의 흐름과 함께 변해
AI 성능은 학습 자료에 좌우
韓 사전, 개정되지 못하고
어학·수학 교육은 지지부진
'투자 없는 결실' 꿈꾸지 말아야
김동욱 오피니언부장
알베르 카뮈는 2차 세계대전이 한창이던 1942년 프랑스 갈리마르 출판사에서 <이방인>을 냈다. 첫 한국어 번역본은 이휘영 서울대 불어불문학과 교수가 6·25전쟁 중인 1953년 청수사(靑樹社)에서 펴냈다. 전쟁 중에 쓰인 책이 전란 중에 다른 언어로 옮겨진 데는 그 시대만의 이유가 있을 터다. 흔히 ‘외부 사람’ ‘국외자’로 번역되는 ‘에트랑제(tranger)’의 역어(譯語)로 일상에서 사용이 드문 ‘이방인(異邦人)’을 택한 데서도 일본 문화의 잔향이 남은 시대상이 엿보인다.
시대의 무게는 책의 제목보다, 첫 문장 번역에서 더 직접적으로 느껴진다. ‘Aujourd’hui, maman est morte.’라는 리드문을 두고 이 교수는 ‘오늘 어머니가 돌아가셨다.’로 옮겼다. 곧이어 등장하는 전보의 문구도 ‘모친 사망, 명일 장례식, 경백(儆白).’으로 예스럽다. 같은 문장을 1994년 이 교수의 제자인 김화영 고려대 불어불문학과 교수는 ‘오늘 엄마가 죽었다.’로 보다 원의에 가깝게 번역했다. 모친의 별세를 두고 ‘어머니’와 ‘돌아가셨다’라는 경어를 선택할 수밖에 없었던, 1950년대 스승이 직면했던 사회적 제약을 떨쳐낸 것이다. 김 교수 이후 번역가들은 부고에 등장하는 ‘경백’이란 표현마저 ‘근조(謹弔)’(김화영), ‘삼가 애도함’(김예령), ‘삼가 조의’(이기언) 등으로 시대에 맞게 바꿨다.
이처럼 언어는 시대의 모습을 담을 수밖에 없다. ‘번역가의 종말’을 선포한 오늘날 인공지능(AI) 번역기들은 카뮈의 첫 문장을 어떻게 번역할까. 파파고와 구글 번역기는 모두 ‘오늘 엄마가 돌아가셨어요’라는 다소 어색한 답안을 내놨다. 챗GPT가 제시한 ‘오늘, 엄마가 죽었어’도 흡족하지 않기는 마찬가지다. 시도 때도 없이 반말하거나, 친칭(親稱)과 경어법이 뒤섞인 조잡한 번역문의 품질은 AI의 데이터 학습이 늘수록 빠르게 개선될 것이다.
하지만 AI를 활용하는 사용자가 마주한 진짜 문제는 따로 있다. 기술 발전에 대한 대중의 낙관적인 전망과 달리 AI가 최신의 정확한 콘텐츠로 학습하지 못할 수 있어서다. 대규모언어모델(LLM)은 방대한 양의 텍스트를 학습해 그럴듯한 문장을 토해낸다. 그럭저럭 쓸 만한 수준이 아니라 100점짜리 서비스를 제공하려면 적확한 기초 데이터가 지속적으로 대량 공급돼야 한다. 그런데 여러 분야에서 데이터 공급 ‘기반’에 속속 금이 가는 모습이다.
어학의 기초인 사전부터 허물어지고 있다. 1998년 초판이 나온 <동아 프라임 한불사전>은 2003년 ‘개정 신판’이 출간된 이후 20년 넘게 업데이트가 멈췄다. 2010년 ‘네이버 프랑스어 사전 서비스’의 근간이 된 이 사전은 외환위기가 불거지면서 충분한 교열을 거치지 못한 채 출간된 것으로 알려졌다. 디지털 시대에 고쳐 쓰지 못하는 것은 각종 ‘국어사전’이나 ‘영한사전’도 별반 다를 게 없다. 외신들은 <옥스퍼드 영어사전>에 등재된 새 단어를 소개하기 바쁘지만, 화석처럼 굳어버린 한국 사전에는 새로운 단어가 추가되지도, 바뀐 뜻이 반영되지도 않는다. 20년 전 바로잡지 못한 사전의 오류 탓에 잘못 번역된 문장을 학습한 AI가 엉뚱한 실수를 할 수도 있는 상황이다.
AI가 조악한 품질의 결과물을 내놔도 이를 사용자가 판별할 수 없을지도 모른다. 뻔한 오류마저 찾아낼 눈이 줄고 있다. 덕성여대는 2025학년도부터 불어불문학과 신입생을 받지 않기로 했다. 부산대도 올해 불어교육과의 문을 걸어 잠갔다. 머지않아 AI가 학습할 프랑스어 자료는 최소한의 품질을 보증하기에도 역부족일 가능성이 작지 않다. 어문계열 전반이 위기인 만큼 영어, 중국어, 독일어 등 외국어 텍스트 전부가 사상누각이 될 수도 있다.
어문계 등 인문계만 문제일까. AI의 중요성을 강조하지만, 딥러닝 알고리즘의 근간인 미적분과 선형대수는 교육 현장에서 문제 풀이에 급급한 골칫거리일 뿐이다. 신경망의 구성 요소라는 벡터와 행렬, 로그함수도 찬밥 신세다. 수학은 그저 입시 과목 중 하나에 불과하다.
모두가 근사해 보이는 AI 활용법에만 주목할 뿐 시스템을 어떻게 구축할지, AI가 학습할 콘텐츠를 어떻게 관리할지에 대해선 큰 관심이 없다. ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage in, Garbage out)’는 프로그래밍 격언처럼 AI 성능과 데이터의 질 간에는 깊은 상관관계가 있다. 기초를 소홀히 하면서 좋은 결과를 바라서는 안 된다.
시대의 무게는 책의 제목보다, 첫 문장 번역에서 더 직접적으로 느껴진다. ‘Aujourd’hui, maman est morte.’라는 리드문을 두고 이 교수는 ‘오늘 어머니가 돌아가셨다.’로 옮겼다. 곧이어 등장하는 전보의 문구도 ‘모친 사망, 명일 장례식, 경백(儆白).’으로 예스럽다. 같은 문장을 1994년 이 교수의 제자인 김화영 고려대 불어불문학과 교수는 ‘오늘 엄마가 죽었다.’로 보다 원의에 가깝게 번역했다. 모친의 별세를 두고 ‘어머니’와 ‘돌아가셨다’라는 경어를 선택할 수밖에 없었던, 1950년대 스승이 직면했던 사회적 제약을 떨쳐낸 것이다. 김 교수 이후 번역가들은 부고에 등장하는 ‘경백’이란 표현마저 ‘근조(謹弔)’(김화영), ‘삼가 애도함’(김예령), ‘삼가 조의’(이기언) 등으로 시대에 맞게 바꿨다.
이처럼 언어는 시대의 모습을 담을 수밖에 없다. ‘번역가의 종말’을 선포한 오늘날 인공지능(AI) 번역기들은 카뮈의 첫 문장을 어떻게 번역할까. 파파고와 구글 번역기는 모두 ‘오늘 엄마가 돌아가셨어요’라는 다소 어색한 답안을 내놨다. 챗GPT가 제시한 ‘오늘, 엄마가 죽었어’도 흡족하지 않기는 마찬가지다. 시도 때도 없이 반말하거나, 친칭(親稱)과 경어법이 뒤섞인 조잡한 번역문의 품질은 AI의 데이터 학습이 늘수록 빠르게 개선될 것이다.
하지만 AI를 활용하는 사용자가 마주한 진짜 문제는 따로 있다. 기술 발전에 대한 대중의 낙관적인 전망과 달리 AI가 최신의 정확한 콘텐츠로 학습하지 못할 수 있어서다. 대규모언어모델(LLM)은 방대한 양의 텍스트를 학습해 그럴듯한 문장을 토해낸다. 그럭저럭 쓸 만한 수준이 아니라 100점짜리 서비스를 제공하려면 적확한 기초 데이터가 지속적으로 대량 공급돼야 한다. 그런데 여러 분야에서 데이터 공급 ‘기반’에 속속 금이 가는 모습이다.
어학의 기초인 사전부터 허물어지고 있다. 1998년 초판이 나온 <동아 프라임 한불사전>은 2003년 ‘개정 신판’이 출간된 이후 20년 넘게 업데이트가 멈췄다. 2010년 ‘네이버 프랑스어 사전 서비스’의 근간이 된 이 사전은 외환위기가 불거지면서 충분한 교열을 거치지 못한 채 출간된 것으로 알려졌다. 디지털 시대에 고쳐 쓰지 못하는 것은 각종 ‘국어사전’이나 ‘영한사전’도 별반 다를 게 없다. 외신들은 <옥스퍼드 영어사전>에 등재된 새 단어를 소개하기 바쁘지만, 화석처럼 굳어버린 한국 사전에는 새로운 단어가 추가되지도, 바뀐 뜻이 반영되지도 않는다. 20년 전 바로잡지 못한 사전의 오류 탓에 잘못 번역된 문장을 학습한 AI가 엉뚱한 실수를 할 수도 있는 상황이다.
AI가 조악한 품질의 결과물을 내놔도 이를 사용자가 판별할 수 없을지도 모른다. 뻔한 오류마저 찾아낼 눈이 줄고 있다. 덕성여대는 2025학년도부터 불어불문학과 신입생을 받지 않기로 했다. 부산대도 올해 불어교육과의 문을 걸어 잠갔다. 머지않아 AI가 학습할 프랑스어 자료는 최소한의 품질을 보증하기에도 역부족일 가능성이 작지 않다. 어문계열 전반이 위기인 만큼 영어, 중국어, 독일어 등 외국어 텍스트 전부가 사상누각이 될 수도 있다.
어문계 등 인문계만 문제일까. AI의 중요성을 강조하지만, 딥러닝 알고리즘의 근간인 미적분과 선형대수는 교육 현장에서 문제 풀이에 급급한 골칫거리일 뿐이다. 신경망의 구성 요소라는 벡터와 행렬, 로그함수도 찬밥 신세다. 수학은 그저 입시 과목 중 하나에 불과하다.
모두가 근사해 보이는 AI 활용법에만 주목할 뿐 시스템을 어떻게 구축할지, AI가 학습할 콘텐츠를 어떻게 관리할지에 대해선 큰 관심이 없다. ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage in, Garbage out)’는 프로그래밍 격언처럼 AI 성능과 데이터의 질 간에는 깊은 상관관계가 있다. 기초를 소홀히 하면서 좋은 결과를 바라서는 안 된다.