AI가 조선왕조실록 읽어준다…누리IDT, 고문헌 인식 서비스 출시
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
지능형 데이터 전문 기업 누리아이디티(누리IDT)가 인공지능(AI)을 기반으로 초서체 한자와 옛 한글, 국한문 혼용문을 자동으로 인식하는 ‘고문헌 OCR 서비스’ 3종을 출시했다고 1일 발표했다. 고문헌 원문 한문을 띄어쓰기해 주는 ‘자동 표점 서비스’도 선보였다. 누리IDT는 지난해 AI 모델이 고문헌의 해서체와 행서체 한자를 98% 정확도로 자동 인식해 디지털 텍스트로 변환해 주는 ‘한자 OCR 서비스’를 개발하기도 했다.
이번에 개발한 모델은 ‘초서 OCR’과 ‘옛 한글 OCR’, ‘국한문 혼용 OCR’ 등 총 3종이다. 초서 OCR은 흘려 쓴 손글씨인 초서체 한자를 AI가 인식해 정자로 자동 변환해 주는 서비스다. 옛 한글 OCR은 한글 고문헌을 읽어주는 서비스를, 국한문 혼용 OCR은 한자와 한글이 혼용된 고문헌 문서를 읽어주는 서비스다. 이로써 국내 고문헌 자료를 간편하고 효율적으로 디지털 텍스트로 변환해 활용하거나 데이터베이스로 구축할 수 있게 됐다. 누리IDT의 OCR 서비스와 표점 서비스는 ‘고문헌한자시스템’ 웹페이지에서 회원가입을 거쳐 누구나 이용할 수 있다.
특히 초서 OCR은 난해한 초서 글자를 AI 모델이 자동으로 인식해 정자로 바꿔 준다는 점에서 서비스 출시 이전부터 사용자들의 기대를 받아 왔다. 손글씨로 흘려 쓴 초서 필사본은 ‘승정원일기’와 같은 국가 공식 기록물을 비롯해 각종 공문서와 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있다. 하지만 소수의 초서 전문가들이 일일이 탈초(정자 옮겨쓰기)해 주기 전엔 고문헌 연구자들도 판독하기 어려웠다. 그러한 초서 원문을 초서 OCR 서비스를 이용해 누구나 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 된 것이다. 누리IDT 관계자는 “초서 자료는 워낙 유형이 다양해 OCR 인식률을 높이기 어려운 점도 있다”며 “AI 모델 알고리즘 개선과 데이터 확보를 통해 성능을 지속적으로 높여 나갈 예정”이라고 말했다.
누리IDT는 자동 표점 서비스도 개발해 출시했다. 표점이란 원문 전체가 하나의 문장처럼 붙여 쓰여 작성된 고전 한문 텍스트를 의미 단위로 띄어쓰기하고 온점과 반점 등 구두점을 찍어 문장을 구분하는 것을 뜻한다. 지금까지 전문가들이 원문 텍스트 의미 단위마다 일일이 구두점을 찍는 작업을 해 왔다. 번역에 20년 이상 걸린 ‘조선왕조실록’과 완료하기까지 앞으로도 40년 이상이 더 소요될 ‘승정원일기’의 번역 사업이 이런 방식으로 진행되고 있다. 자동 표점 서비스는 표점 작업을 AI가 자동으로 처리해 준다. 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발해 웹서비스로 공개했다. 1000자 분량의 한문 원문 텍스트를 붙여넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 준다. 표점의 정확도는 90% 이상으로서 관련 전공의 석사 수준을 능가한다. 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다. 배성진 누리IDT 대표는 “작년 고문헌 한자 OCR을 출시한 이후 지속적인 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 됐다”며 “이번에 새롭게 공개하는 OCR과 표점 서비스가 고문헌 자료의 텍스트화와 활용에 적극 사용되기를 바란다”고 말했다.
장강호 기자 callme@hankyung.com
특히 초서 OCR은 난해한 초서 글자를 AI 모델이 자동으로 인식해 정자로 바꿔 준다는 점에서 서비스 출시 이전부터 사용자들의 기대를 받아 왔다. 손글씨로 흘려 쓴 초서 필사본은 ‘승정원일기’와 같은 국가 공식 기록물을 비롯해 각종 공문서와 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있다. 하지만 소수의 초서 전문가들이 일일이 탈초(정자 옮겨쓰기)해 주기 전엔 고문헌 연구자들도 판독하기 어려웠다. 그러한 초서 원문을 초서 OCR 서비스를 이용해 누구나 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 된 것이다. 누리IDT 관계자는 “초서 자료는 워낙 유형이 다양해 OCR 인식률을 높이기 어려운 점도 있다”며 “AI 모델 알고리즘 개선과 데이터 확보를 통해 성능을 지속적으로 높여 나갈 예정”이라고 말했다.
누리IDT는 자동 표점 서비스도 개발해 출시했다. 표점이란 원문 전체가 하나의 문장처럼 붙여 쓰여 작성된 고전 한문 텍스트를 의미 단위로 띄어쓰기하고 온점과 반점 등 구두점을 찍어 문장을 구분하는 것을 뜻한다. 지금까지 전문가들이 원문 텍스트 의미 단위마다 일일이 구두점을 찍는 작업을 해 왔다. 번역에 20년 이상 걸린 ‘조선왕조실록’과 완료하기까지 앞으로도 40년 이상이 더 소요될 ‘승정원일기’의 번역 사업이 이런 방식으로 진행되고 있다. 자동 표점 서비스는 표점 작업을 AI가 자동으로 처리해 준다. 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발해 웹서비스로 공개했다. 1000자 분량의 한문 원문 텍스트를 붙여넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 준다. 표점의 정확도는 90% 이상으로서 관련 전공의 석사 수준을 능가한다. 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다. 배성진 누리IDT 대표는 “작년 고문헌 한자 OCR을 출시한 이후 지속적인 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 됐다”며 “이번에 새롭게 공개하는 OCR과 표점 서비스가 고문헌 자료의 텍스트화와 활용에 적극 사용되기를 바란다”고 말했다.
장강호 기자 callme@hankyung.com