"인공지능이 쓰는 언어 97%가 영어…AI 종속 막을 'K-연합군' 절실"
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
한국의 AI 혁명가들
(6) 네이버 하정우 AI LAB 소장·성낙호 Biz AI 책임리더
(6) 네이버 하정우 AI LAB 소장·성낙호 Biz AI 책임리더
“GPT-3와 같은 글로벌 인공지능(AI) 언어 모델에 한국어가 차지하는 비중은 소수점에 불과합니다. 해외 기업들이 구축해 놓은 모델에 종속된다면, 머지않아 국내 전 산업계가 타격을 받을 것입니다.”
지난달 18일 경기 성남시 네이버 그린팩토리에서 만난 하정우 네이버 AI LAB 연구소장(44), 성낙호 네이버 클로바 CIC Biz AI 책임리더(42)는 네이버의 AI 개발을 이끄는 최전선 지휘관이다. 업계와의 선의의 경쟁에 몰두해 있을 법한 두 ‘장수’ 입에선 ‘연합’ ‘동맹’이란 단어가 자주 흘러나왔다. 이들은 “한국의 AI 생태계 조성을 위해선 카카오든 누구든 모두와 협업할 수 있다”며 글로벌 기업에 맞설 ‘K-연합군’이 필요하다고 강조했다.
독특한 성과지표(KPI)는 네이버 AI 조직의 특징이다. 바로 정규 논문 발표 횟수다. 네이버는 지난해에만 정상급 AI 관련 학회에서 43개의 논문 발표 실적을 올렸다. 경쟁사 카카오의 두 배 수준으로, 국내 최대 규모다. 올해는 벌써 논문 19개를 발표했다.
회사 차원의 투자와 관심이 있었기에 가능한 일이다. 네이버는 지난해 10월 AI 연구를 위해 700페타플롭(PF·초당 1000조 번 연산)급 성능의 ‘슈퍼컴퓨터’를 사들였다. 국내 기업 최초 사례다. 슈퍼컴은 구축에만 수백억원이 드는 것으로 알려져 있다. 하 소장은 “네이버의 최근 5년간 매출이 4조~5조원 규모인데, 이 중 25%가 연구개발(R&D)에 사용되고 있다”며 “R&D의 핵심 투자가 AI에 몰리고 있어 장비와 연구 실적의 기반을 닦을 수 있었다”고 소개했다.
통상 AI는 데이터를 입력받으며 학습하고 성장한다. 하지만 데이터의 근간이 되는 글로벌 인터넷 문서와 출판물 자료 등 데이터의 60% 이상이 영어로 돼 있다는 것이 문제다. 한국어는 해외 기업들의 AI 언어모델에서 사실상 학습되지 못하고 있는 것이다.
성 리더는 “AI 역사상 최강의 자연어 처리 인공지능으로 평가받고 있는 오픈AI사의 GPT-3 API(프로그램 언어 형식)를 분석해보면, 97%가 영어고 0.01%가 한국어일 정도로 언어적 편향성이 심각하다”며 “애초에 인터넷상에 한국어 데이터가 0.6%밖에 안 되니 벌어지는 현상”이라고 말했다.
네이버가 한국어 기반의 ‘초거대 AI’를 목표로 삼은 것도 이 때문이다. 100억 개의 변수도 거뜬히 처리하는 고도화 모델이 목표다. 하 소장은 “이미 AI는 세계 각국의 국가 생산성을 뒤바꿀 정도로 진화했기 때문에 AI 주권을 수호한다는 마음으로 누군가가 개발에 나설 필요가 있다”고 강조했다.
이를 위해 네이버는 KAIST, 서울대 등 학교와의 산학연계도 강화할 예정이다. 그는 “오픈AI를 넘어서는 게 목표”라고 했다.
네이버의 AI 기술력은 코로나19 사태와 맞물리면서 뜻하지 않게 부각됐다. 클로바CIC가 개발한 ‘클로바 케어콜’은 음성인식 기술과 자연어 처리 기술로 가상의 전화 상담사를 만들어냈다. 성 리더는 “코로나 사태에서 접촉자 확인을 사람이 일일이 진행할 수 없자 AI콜이 널리 쓰였다”고 말했다. ‘클로바더빙’과 같은 AI 기반 음성 합성기는 학교 선생님들의 호응을 얻었다. 비대면 교육 수요를 타고 ‘붐’이 일었다.
네이버는 다음달 대형 AI 콘퍼런스 개최를 기획하고 있다. AI 분야 성과와 향후 비전을 공유하고, 함께할 기업과 학계 인사들의 중지를 모으는 자리다. 독거노인, 소상공인을 위한 AI 기술 해법 등 사회적 역할에 대한 비전도 준비하고 있다. 하 소장은 “AI의 편향성과 신뢰 가능성의 문제는 다시금 ‘AI 겨울’을 부를 수 있다”며 “국내 기업들과 학교가 모여 지속 가능한 성장을 도모해야 한다”고 강조했다.
이시은 기자 see@hankyung.com
지난달 18일 경기 성남시 네이버 그린팩토리에서 만난 하정우 네이버 AI LAB 연구소장(44), 성낙호 네이버 클로바 CIC Biz AI 책임리더(42)는 네이버의 AI 개발을 이끄는 최전선 지휘관이다. 업계와의 선의의 경쟁에 몰두해 있을 법한 두 ‘장수’ 입에선 ‘연합’ ‘동맹’이란 단어가 자주 흘러나왔다. 이들은 “한국의 AI 생태계 조성을 위해선 카카오든 누구든 모두와 협업할 수 있다”며 글로벌 기업에 맞설 ‘K-연합군’이 필요하다고 강조했다.
논문 실적 1위·슈퍼컴까지 보유
사내독립기업 클로바 CIC와 지난해 이곳에서 분리된 AI LAB은 현 네이버 AI 연구의 핵심 조직이다. 연관된 인력 수는 대외비다. 업계에선 한국과 일본을 포함해 1000명 정도일 것으로 추산한다. 두 리더는 전체 AI 연구의 현장을 책임지고 있다.독특한 성과지표(KPI)는 네이버 AI 조직의 특징이다. 바로 정규 논문 발표 횟수다. 네이버는 지난해에만 정상급 AI 관련 학회에서 43개의 논문 발표 실적을 올렸다. 경쟁사 카카오의 두 배 수준으로, 국내 최대 규모다. 올해는 벌써 논문 19개를 발표했다.
회사 차원의 투자와 관심이 있었기에 가능한 일이다. 네이버는 지난해 10월 AI 연구를 위해 700페타플롭(PF·초당 1000조 번 연산)급 성능의 ‘슈퍼컴퓨터’를 사들였다. 국내 기업 최초 사례다. 슈퍼컴은 구축에만 수백억원이 드는 것으로 알려져 있다. 하 소장은 “네이버의 최근 5년간 매출이 4조~5조원 규모인데, 이 중 25%가 연구개발(R&D)에 사용되고 있다”며 “R&D의 핵심 투자가 AI에 몰리고 있어 장비와 연구 실적의 기반을 닦을 수 있었다”고 소개했다.
한국어 AI 모델 구축에 힘 합쳐야
국내 최고 수준의 인력과 제반 인프라를 갖췄지만, 두 책임자의 어투엔 근심이 가득했다. 글로벌 AI 기업들과의 격차가 잘못하면 ‘기술 종속성’으로 귀결될 수 있다는 우려다.통상 AI는 데이터를 입력받으며 학습하고 성장한다. 하지만 데이터의 근간이 되는 글로벌 인터넷 문서와 출판물 자료 등 데이터의 60% 이상이 영어로 돼 있다는 것이 문제다. 한국어는 해외 기업들의 AI 언어모델에서 사실상 학습되지 못하고 있는 것이다.
성 리더는 “AI 역사상 최강의 자연어 처리 인공지능으로 평가받고 있는 오픈AI사의 GPT-3 API(프로그램 언어 형식)를 분석해보면, 97%가 영어고 0.01%가 한국어일 정도로 언어적 편향성이 심각하다”며 “애초에 인터넷상에 한국어 데이터가 0.6%밖에 안 되니 벌어지는 현상”이라고 말했다.
네이버가 한국어 기반의 ‘초거대 AI’를 목표로 삼은 것도 이 때문이다. 100억 개의 변수도 거뜬히 처리하는 고도화 모델이 목표다. 하 소장은 “이미 AI는 세계 각국의 국가 생산성을 뒤바꿀 정도로 진화했기 때문에 AI 주권을 수호한다는 마음으로 누군가가 개발에 나설 필요가 있다”고 강조했다.
이를 위해 네이버는 KAIST, 서울대 등 학교와의 산학연계도 강화할 예정이다. 그는 “오픈AI를 넘어서는 게 목표”라고 했다.
ESG까지 챙기는 AI 개발 중
K-연합군을 구상 중인 네이버는 최근 다양한 AI 성공사례를 내놓고 있다. 향후엔 환경(E)·사회(S)·지배구조(G) 측면을 충족하는 AI 기술까지 내놓을 예정이다.네이버의 AI 기술력은 코로나19 사태와 맞물리면서 뜻하지 않게 부각됐다. 클로바CIC가 개발한 ‘클로바 케어콜’은 음성인식 기술과 자연어 처리 기술로 가상의 전화 상담사를 만들어냈다. 성 리더는 “코로나 사태에서 접촉자 확인을 사람이 일일이 진행할 수 없자 AI콜이 널리 쓰였다”고 말했다. ‘클로바더빙’과 같은 AI 기반 음성 합성기는 학교 선생님들의 호응을 얻었다. 비대면 교육 수요를 타고 ‘붐’이 일었다.
네이버는 다음달 대형 AI 콘퍼런스 개최를 기획하고 있다. AI 분야 성과와 향후 비전을 공유하고, 함께할 기업과 학계 인사들의 중지를 모으는 자리다. 독거노인, 소상공인을 위한 AI 기술 해법 등 사회적 역할에 대한 비전도 준비하고 있다. 하 소장은 “AI의 편향성과 신뢰 가능성의 문제는 다시금 ‘AI 겨울’을 부를 수 있다”며 “국내 기업들과 학교가 모여 지속 가능한 성장을 도모해야 한다”고 강조했다.
이시은 기자 see@hankyung.com