스켈터랩스 'AI 언어모델'…한국어 독해평가 1등 했네

웬만한 사람 점수보다 높아
금융·법률·특허 등 전문서류
읽어주는 챗봇에 적용 예정
인공지능(AI) 스타트업(신생 벤처기업) 스켈터랩스가 개발한 한국어 AI 언어 모델이 LG CNS 데이터셋을 활용한 독해 평가에서 1위에 올랐다. 한국어 기계 독해(MRC) 데이터셋 ‘KorQuAD 1.0’이 산출한 F1 스코어가 95.15점에 달했다.

KorQuAD 1.0은 LG CNS가 2018년 12월 공개한 한국어 질의응답 데이터셋이다. 질문에 대한 답을 잘 찾는지 여부로 AI의 성능을 평가한다. F1 스코어는 AI가 찾은 답과 실제 정답을 글자 단위로 비교해 산출한다. 답이 정교할수록 점수가 올라간다. 모델이 정답을 정확히 맞힌 데이터의 비율을 뜻하는 EM 스코어와 함께 평가의 기준으로 활용한다. 사람이 직접 문제를 풀었을 때의 평균 점수는 F1 91.20점, EM 80.17점이다.이번 테스트에서 스켈터랩스는 F1 95.15점을 받았다. 앞서 만들어진 AI 모델들은 물론 사람까지 뛰어넘는 점수다. 적은 양의 데이터로도 한국어의 고유한 특성을 학습할 수 있는 게 스켈터랩스 한국어 AI의 특징이다. ‘AI의 정확도는 축적한 데이터의 양에 비례한다’는 고정관념이 깨진 셈이다.

스켈터랩스는 이 언어 모델을 상반기 중 자사 AI 챗봇 설계 솔루션 ‘AIQ. TALK Chatbot’에 적용할 예정이다. 회사 관계자는 “AI가 금융과 보험, 법률, 특허, 의료 등 전문적인 서류를 대신 읽도록 할 계획”이라며 “방대한 자료를 읽고 사용자의 의사 결정에 유용한 정보를 추출하는 게 AI의 역할”이라고 말했다.

금융상품을 심사하는 기관이라면 AI 솔루션을 심사에 활용할 수 있다는 게 회사 측 설명이다. 금융상품 약관과 체크리스트를 주면 AI가 내용을 분석해 적정성 여부를 판단한다. 사람이 일일이 약관을 들여다볼 때보다 심사에 소요되는 시간을 줄일 수 있다.조원규 스켈터랩스 대표(사진)는 “음성 합성과 음성 인식 AI 모델도 권위 있는 기관을 통해 성능 테스트를 거칠 계획”이라며 “문자뿐 아니라 음성 정보까지 인식할 수 있도록 챗봇의 수준을 끌어올리겠다”고 했다.

조수영 기자 delinews@hankyung.com