SKT, 한국어판 'GPT-3' 만든다…국립국어원과 협업

사진=한경DB
SK텔레콤이 국립국어원과 함께 한국어 인공지능(AI) 모델을 개발한다.

SK텔레콤은 7일 국립국어원과 한국어에 적합한 차세대 AI 언어 모델을 개발하는 업무협약을 체결했다고 발표했다. 이번 업무협약은 AI 기반 한국어 범용언어모델(GLM)을 만드는게 목표다. GLM은 보다 자연스러운 언어 표현을 할 수 있는게 특징이다. 고객센터나 대민서비스 운영을 비롯해 문학, 역사, 게임, 시사 등 각 분야에 적용할 수 있다.

SK텔레콤은 국립국어원과 협력해 기존 자연어처리 AI 중 최고로 여겨지는 GPT-3과 비슷한 성능의 GLM을 구축할 계획이다. GPT-3는 영어 기반 AI 언어모델로 언어 관련 문제풀이, 글짓기, 번역, 주어진 문장에 따른 간단한 코딩 등 광범위한 분야에 사용할 수 있다. 일론 머스크 테슬라 최고경영자(CEO), 샘 알트먼 전 와이콤비네이터(YC) 대표 등이 공동으로 설립한 오픈AI가 개발했다.

SK텔레콤이 개발하는 GLM은 매개변수 1500억개 규모로 개발한다. GPT-3는 1750억개 매개변수(파라미터)를 두고 있다. 매개변수란 서로 다른 함수에 공통적으로 영향을 미치는 변수로 AI가 여러 학습내용을 종합해 특정 상황에 보다 적합한 반응을 낼 수 있도록 중개한다. 통상 매개변수가 많을수록 언어 모델의 성능도 높다. SK텔레콤은 2018년부터 AI 언어모델 개발에 나섰다. 2019년엔 한국어 언어 모델인 KoBERT를, 작년엔 KoGPT-2를 개발해 챗봇 서비스와 음성 상담 등에 적용하고 있다. 작년 10월엔 텍스트 처리 역량을 높인 KoBART를 개발했다. KoBART는 뉴스를 담은 글 등 문서를 양질의 요약문으로 만드는 등 자연어 이해·처리 영역 기술을 높였다.

SK텔레콤은 연말까지 GLM을 개발해 내부 서비스를 통해 성능을 검증할 계획이다. 이후 상용화에 들어간다. 한국어 언어모델 성능 평가 방법 개발, 한국어 데이터 품질 평가 연구도 추진할 예정이다. 국립국어원은 SK텔레콤의 AI 언어 모델을 활용해 AI의 언어소통 능력을 겨루는 경진대회를 연내 개최하기로 했다.

데이비스 에릭 하트먼 SK텔레콤 랩장은 "SK텔레콤은 한국어에 적합한 AI 언어모델을 선제적으로 개발하고 있다"며 "국립국어원과의 이번 협력을 계기로 한국어의 정보화, 과학화, 세계화에 기여할 것"이라고 말했다. 정희원 국립국어원 어문연구실장은 “AI 개발에 필요한 언어 정보자원을 지속적으로 발굴해 시스템을 구축해 나갈 것”이라고 했다.

선한결 기자 always@hankyung.com