처음 본 이미지 설명 척척…LG, 차세대 AI 키운다

AI연구원, 이미지 캡셔닝 연구
사진 검색계의 챗GPT 기대감
LG그룹의 초거대 인공지능(AI) 개발을 맡고 있는 LG AI연구원이 이미지를 이해하고 설명할 수 있는 ‘이미지 캡셔닝’ 기술 분야로 연구 영역을 넓힌다. 최근 대화형 AI 챗봇인 ‘챗GPT’가 자연어 검색 분야에서 큰 반향을 일으킨 데 이어 이미지 캡셔닝 기술이 이미지 검색 분야에서 열풍을 이어갈 것이라는 기대에서다.

LG AI연구원은 2월 1일부터 4월 말까지 세계 AI 연구자를 대상으로 ‘LG 글로벌 AI 챌린지’를 연다고 31일 발표했다. 이 대회는 서울대 AI대학원, 이미지 판매업체 셔터스톡과 공동 개최한다. LG AI연구원은 서울대 AI연구원과 초거대 AI ‘엑사원’을 공동 연구하고, 셔터스톡과는 이미지 캡셔닝 AI의 상용화 서비스를 준비하고 있다.대회 주제는 ‘제로샷 이미지 캡셔닝’이다. 제로샷 이미지 캡셔닝은 AI가 처음 본 사물·동물·풍경 등 이미지나 삽화·그래픽 등을 스스로 이해하고 유추한 결과를 텍스트로 설명하는 기술을 뜻한다. AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지를 평가하는 세계 최초의 대회다. 예컨대 토끼를 한 번도 본 적 없는 상태에서 토끼 여러 마리와 고양이 한 마리가 함께 있는 것을 봤을 때 ‘토끼도 털은 있지만, 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다’고 설명하는 식이다.

LG AI연구원은 제로샷 이미지 캡셔닝 기술이 고도화하면 사람들의 실생활에 직접 도움을 줄 수 있는 기술 개발로 이어질 것으로 보고 있다. 연구원 관계자는 “AI가 자동으로 캡션과 키워드를 생성해 검색 편의성과 정확도를 높일 수 있다”며 “의학 영상을 분석하는 ‘의학 전문가 AI’로도 유용할 것”이라고 설명했다.

LG AI연구원은 올해 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR 2023’에서 제로샷 이미지 캡셔닝을 주제로 워크숍도 할 계획이다. 이경무 서울대 AI대학원 석좌교수는 “세계 최초로 제로샷 이미지 캡셔닝 대회와 워크숍을 여는 것은 우리나라 AI 역량이 세계적인 수준에 도달한 것으로 볼 수 있다”고 말했다.

정지은 기자 jeong@hankyung.com