직장인이 바라던 바로 그것!…AI 기반 문서 전자화로 '대박'
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
라이징 AI 스타트업 <21>악어디지털
각종 종이문서 디지털 문서로 자동전환
검색가능 형태로 바꿔... 문자 인식률 99%
구겨져 있는 문서, 휘갈겨 쓴 문자도 척척
현대차, 포스코,삼성바이오 등서 러브콜
각종 종이문서 디지털 문서로 자동전환
검색가능 형태로 바꿔... 문자 인식률 99%
구겨져 있는 문서, 휘갈겨 쓴 문자도 척척
현대차, 포스코,삼성바이오 등서 러브콜
기업·기관이나 연구소, 병원 등엔 종이 문서 자료가 많다. 하지만 책장이나 캐비넷에서 빼곡히 자리를 차지하고 있는 종이 문서를 정리하기는 쉽지 않다. 수기 내용을 일일이 컴퓨터에 입력하려면 매우 많은 시간과 노동력이 들기 때문이다.
악어디지털은 인공지능(AI)을 활용해 이같은 문제를 해결해주는 스타트업이다. 각종 종이 문서를 디지털 문서로 바꿔준다. 단순히 서류를 스캔해 이미지 파일로 만드는게 아니다. 문장이나 단어를 검색·열람할 수 있도록 텍스트로 변환한다.
KANDA는 문자를 인식하고, 인식한 정보를 일상 언어(자연어) 맥락에 맞게 교정하는 등 두 단계를 거치는 게 특징이다. 이를 통해 ㅎ을 ㄹ처럼 흘려 쓴 글씨나 ㅁ을 ㅇ과 비슷하게 휘갈겨 쓴 글씨도 맥락에 맞게 읽어낸다. 원본 수기 문서의 맞춤법이 틀린 경우엔 이를 자동으로 수정해 디지털 문서를 만들어준다. 종이 문서 보관 과정에서 구겨졌거나 일부 훼손된 문서도 이같은 과정을 통해 디지털 문서로 변환할 수 있다. 매출전표 등 표와 글씨가 겹쳐 있는 문서도 별 어려움 없이 문자를 인식한다.
대규모 전자화 플랫폼을 기반으로 서비스를 운영하는 것도 AI 엔진 정확도를 높였다. AI가 한글 문자를 정확히 인식하도록 하려면 막대한 데이터가 필요하다. 영문 알파벳은 24글자만 학습시키면 되지만, 한글은 기본 조합만 해도 2450자가 넘기 때문이다. 악어디지털의 KANDA는 한글 필기체 문자 약 600만자, 일본어 필기체 문자 약 120만자를 학습했다. 기존 데이터를 이용해 스스로 필체를 생성해 내용을 습득하기도 한다. 이를 기반으로 문서를 하루 최대 100만 장 처리할 수 있다.
‘전자 문서 및 전자거래 기본법 개정안’이 지난해 시행되면서 전자화 문서(디지털 문서)가 원본 종이문서와 동일한 법적 효력을 갖게 돼 서비스 수요가 늘었다. 악어디지털은 “종이문서를 디지털화해 관리하면 문서 창고 운영에 따르는 각종 관리 비용이 확 줄어들고, 자연재해나 화재 등으로 종이 문서에 담긴 정보가 유실될 염려도 없어진다”고 설명했다. 코로나19 장기화와 ESG(환경·사회·지배구조) 경영 확산세도 디지털화 수요 증가에 영향을 미쳤다. 비대면 근무를 하면서 종이를 쓰는 대신 디지털 문서로 정보를 주고 받는 경우가 많아져서다.
악어디지털은 지난달 200억원 규모 시리즈B 투자를 유치했다. 누적 투자유치액은 총 300억원이다. 악어디지털은 투자금을 기반 삼아 AI 엔진을 고도화하고 해외 사업을 늘릴 계획이다. 최근엔 세계 최대 규모인 일본 문서 전자화 시장을 공략하기 위해 일본법인을 세우고, 현지 판매 대리점 계약을 체결했다.
일본 MIC경제연구소에 따르면 일본의 문서 전자화 시장 규모는 약 50조원에 달한다. 악어디지털이 일본 도쿄증권거래소의 신흥기업 중심 시장 ‘마더스’에 기업공개(IPO)를 하는 것을 수년 내 목표로 잡은 이유다. 김 대표는 “악어디지털을 최대 문서 전자화 데이터베이스(DB) 구축 기업으로 키울 것”이라고 말했다.
선한결 IT과학부 기자
악어디지털은 인공지능(AI)을 활용해 이같은 문제를 해결해주는 스타트업이다. 각종 종이 문서를 디지털 문서로 바꿔준다. 단순히 서류를 스캔해 이미지 파일로 만드는게 아니다. 문장이나 단어를 검색·열람할 수 있도록 텍스트로 변환한다.
“자체 AI 엔진, 문자 인식률 99%”
악어디지털의 핵심 기술은 자체 개발한 AI OCR(광학문자판독) 엔진 ‘KANDA’다. 각종 수기 데이터를 AI에 학습시켜 AI가 문자를 인식·추론하게 했다. 인식률이 낮은 데이터는 사람이 교정해주는 학습과정을 반복해 정확도를 높였다. 올해 기준 KANDA의 문자 인식 정확도는 99.34%다.KANDA는 문자를 인식하고, 인식한 정보를 일상 언어(자연어) 맥락에 맞게 교정하는 등 두 단계를 거치는 게 특징이다. 이를 통해 ㅎ을 ㄹ처럼 흘려 쓴 글씨나 ㅁ을 ㅇ과 비슷하게 휘갈겨 쓴 글씨도 맥락에 맞게 읽어낸다. 원본 수기 문서의 맞춤법이 틀린 경우엔 이를 자동으로 수정해 디지털 문서를 만들어준다. 종이 문서 보관 과정에서 구겨졌거나 일부 훼손된 문서도 이같은 과정을 통해 디지털 문서로 변환할 수 있다. 매출전표 등 표와 글씨가 겹쳐 있는 문서도 별 어려움 없이 문자를 인식한다.
대규모 전자화 플랫폼을 기반으로 서비스를 운영하는 것도 AI 엔진 정확도를 높였다. AI가 한글 문자를 정확히 인식하도록 하려면 막대한 데이터가 필요하다. 영문 알파벳은 24글자만 학습시키면 되지만, 한글은 기본 조합만 해도 2450자가 넘기 때문이다. 악어디지털의 KANDA는 한글 필기체 문자 약 600만자, 일본어 필기체 문자 약 120만자를 학습했다. 기존 데이터를 이용해 스스로 필체를 생성해 내용을 습득하기도 한다. 이를 기반으로 문서를 하루 최대 100만 장 처리할 수 있다.
대통령기록관·현대차 등이 고객사
작년 악어디지털이 디지털 문서로 변환한 종이 문서는 1억2000만 장에 달한다. 다양한 사업 분야에서 고객사 300여 곳을 두고 있다. 대통령기록관, 감사원, 검찰, 국회도서관 등 공공기관을 비롯해 삼성바이로직스, 현대차, 포스코건설, 삼정KPMG 등이 악어디지털의 서비스를 이용한다. 환자 차트 등을 종이 문서로 보관해온 병의원, 회계 자료를 디지털화하려는 중소기업 등도 고객사다.‘전자 문서 및 전자거래 기본법 개정안’이 지난해 시행되면서 전자화 문서(디지털 문서)가 원본 종이문서와 동일한 법적 효력을 갖게 돼 서비스 수요가 늘었다. 악어디지털은 “종이문서를 디지털화해 관리하면 문서 창고 운영에 따르는 각종 관리 비용이 확 줄어들고, 자연재해나 화재 등으로 종이 문서에 담긴 정보가 유실될 염려도 없어진다”고 설명했다. 코로나19 장기화와 ESG(환경·사회·지배구조) 경영 확산세도 디지털화 수요 증가에 영향을 미쳤다. 비대면 근무를 하면서 종이를 쓰는 대신 디지털 문서로 정보를 주고 받는 경우가 많아져서다.
세계 최대 일본 시장 공략
악어디지털은 김용섭 대표가 2014년 창립했다. 김 대표는 시큐어소프트, 안랩, 네이버 등을 거친 개발자 출신 최고경영자(CEO)다. 전자책(e북) 시장 활성화 이전에 출장을 가서도 원하는 책을 보기 위해 이미지 스캔본을 만든 게 창업 계기가 됐다. 한 장씩 이미지를 스캔하던 중 이같이 번거로운 작업을 누군가 대신 해주면 좋겠다고 생각한 게 출발점이었다. 올해 출범 8년차인 악어디지털은 서류 수거부터 스캔, 전자화, 원본보관·파기까지 디지털 문서 전환 과정에 필요한 서비스를 통합 제공하는 기업으로 덩치를 키웠다. 디지털 문서 정보 유출 위험을 낮추기 위해 암호화, 타임스탬프, 전자서명 등 보안 기능도 지원한다.악어디지털은 지난달 200억원 규모 시리즈B 투자를 유치했다. 누적 투자유치액은 총 300억원이다. 악어디지털은 투자금을 기반 삼아 AI 엔진을 고도화하고 해외 사업을 늘릴 계획이다. 최근엔 세계 최대 규모인 일본 문서 전자화 시장을 공략하기 위해 일본법인을 세우고, 현지 판매 대리점 계약을 체결했다.
일본 MIC경제연구소에 따르면 일본의 문서 전자화 시장 규모는 약 50조원에 달한다. 악어디지털이 일본 도쿄증권거래소의 신흥기업 중심 시장 ‘마더스’에 기업공개(IPO)를 하는 것을 수년 내 목표로 잡은 이유다. 김 대표는 “악어디지털을 최대 문서 전자화 데이터베이스(DB) 구축 기업으로 키울 것”이라고 말했다.
선한결 IT과학부 기자