"이미지만 보여줘도 답변 척척"…카카오, 새 오픈소스 AI 공개

멀티모달 LLM 적용한 '허니비'
네이버·LG도 시장 공략 나서
카카오 자회사인 카카오브레인이 이미지를 텍스트로 해석할 수 있는 인공지능(AI)을 공개했다. 오픈소스로 이 기술을 시장에 풀어 생성형 AI 생태계를 빠르게 구축할 예정이다.

카카오브레인은 자체 개발한 멀티모달 대규모언어모델(LLM)인 ‘허니비’를 AI 오픈소스 플랫폼인 ‘깃허브’에 선보였다고 19일 발표했다. 멀티모달은 텍스트뿐 아니라 사진, 그림, 영상, 음성 등 다양한 형태의 콘텐츠를 입·출력할 수 있는 AI 모델을 뜻한다.

이용자가 이미지를 올린 뒤 텍스트로 질문하면 허니비는 텍스트로 답을 내놓는다. 농구 경기 중인 두 명의 선수 이미지를 올린 뒤 왼쪽 선수가 몇 번 우승했는지를 물어보면 우승 횟수를 알려주는 식이다. 다만 텍스트는 영문만 지원한다.

카카오는 AI 기술을 오픈소스 플랫폼으로 외부 공개하는 방식을 택했다. 허니비를 활용한 자체 서비스 개발에만 집중하기보다 다양한 업체가 허니비를 활용해 각종 서비스를 내놓을 수 있도록 하겠다는 전략이다. 카카오 관계자는 “허니비는 교육이나 학습 보조 용도로 우선 활용될 수 있을 것”이라며 “카카오브레인도 이를 활용해 각종 서비스를 확장하는 안을 고려하고 있다”고 말했다.카카오는 자체 LLM인 ‘코GPT 2.0’을 지난해 말 공개하기로 했지만 출시가 미뤄졌다. 이 업체는 범용으로 활용할 수 있는 중형 LLM 대신 산업 영역별로 특화한 경량 LLM 위주로 생성 AI 서비스를 내놓는 안을 고려하고 있다. 충분한 수익성을 확보하기 위해선 AI 모델의 몸집을 줄여 서비스 호출 비용을 최소화해야 한다는 게 카카오의 판단이다.

다른 국내 기업들도 이미지를 활용한 멀티모달 기술로 생성 AI 시장에 도전장을 낸 상태다. 네이버는 연내 자체 AI 모델인 ‘하이퍼클로바X’로 이미지, 음성 등의 입력을 지원하는 게 목표다. LG AI연구원도 지난달 자체 AI 모델인 ‘엑사원 2.0’을 통해 이미지를 텍스트로 설명해주는 기술을 공개했다. 아마존웹서비스(AWS) 플랫폼으로 이 기술을 풀어 해외 시장을 공략하겠다는 구상이다.

생성 AI 시장을 선도했던 오픈AI는 지난해 9월 챗GPT에 음성, 이미지 인식 기능을 추가했다. 구글도 지난달 멀티모달 AI 모델인 제미나이를 공개했다. 삼성전자의 갤럭시S24 시리즈에 도입되는 이미지 분석 기술인 ‘서클 투 서치’도 제미나이를 활용한다.

이주현 기자 deep@hankyung.com