목소리 갖게 된 AI…감정까지 파악하는 '음성 비서' 눈앞
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
빅테크들 치열한 개발 경쟁
오픈AI 'GPT-4o'로 포문
사용자 말투·표정 분석해 기분 읽어
MS·애플·구글·아마존 모두 참전
'범용인공지능'에 한 걸음 다가서
딥페이크 악용 더 교묘해질 우려
오픈AI 'GPT-4o'로 포문
사용자 말투·표정 분석해 기분 읽어
MS·애플·구글·아마존 모두 참전
'범용인공지능'에 한 걸음 다가서
딥페이크 악용 더 교묘해질 우려
인공지능(AI)이 목소리를 얻었다. 사용자와 친구처럼 대화하며 다양한 기능을 수행하는 단계로 AI가 진화한 것이다. 이미지, 영상 인식은 물론 사용자의 감정 상태를 파악하는 수준까지 올라왔다. 마치 영화 ‘아이언맨’ 주인공 토니 스타크의 AI 비서 ‘자비스’, ‘그녀(Her)’에서 주인공이 사랑에 빠진 AI 시스템 ‘사만다’가 현실 세계에 등장한 것과 같다.
빅테크의 치열한 경쟁 속에 AI 기술 발전 속도는 갈수록 빨라지고 있다. AI 기술 개발의 최종 목표인 범용인공지능(AGI)에 한 걸음 다가섰다는 평가가 나온다. 점점 인간을 닮아가는 AI를 두고 여러 논란과 우려도 나오고 있다. 몇 년 전 미래 사회를 그린 공상과학(SF) 영화에서 던진 질문들이 오늘날 우리 사회의 화두가 됐다.
이날 시연에 참석한 엔지니어가 “수면장애가 있는데 잠이 잘 오는 이야기를 들려달라”고 요청했다. 이에 GPT-4o는 이야기를 들려줬고, 엔지니어들은 다양한 분위기와 감정으로 목소리를 변형했다. 챗봇은 구연동화 톤의 목소리는 물론 로봇과 같은 소리로도 이야기를 들려줬다. ‘나는 GPT를 사랑한다’는 문장을 쓰자 이를 본 뒤 “너무나 감동적이야. 고마워”라는 감탄사를 내뱉기도 했다.
GPT-4o는 50개 언어에 대해 실시간 통역 기능도 갖췄다. 오픈AI에 따르면 GPT-4o의 평균 응답 시간은 최소 232밀리초(ms·1000분의 1초), 평균 320밀리초다. 이는 사람의 반응 시간과 비슷한 수준이다. 2013년 개봉한 SF영화 ‘그녀(Her)’가 현실화했다는 평가가 나온 배경이다.
오픈AI가 신기술을 내놓자 다른 빅테크로 발 빠르게 움직이기 시작했다. 오픈AI와 협업 관계에 있는 마이크로소프트(MS)는 21일 열린 연례 개발자 콘퍼런스 ‘빌드’에서 자사 클라우드 서비스 애저에 적용한다고 밝혔다. 애플은 다음달 열리는 연례 세계 개발자 회의(WWDC)에서 생성형 AI를 내장한 음성 비서 ‘시리’를 공개할 것으로 알려졌다. 차기 아이폰 운영체제인 애플의 iOS 18에서 챗GPT 기능을 사용하기 위해 오픈AI와 계약 조건을 마무리하고 있다는 것이다.
아마존도 관련 기술 개발에 속도를 내고 있다. CNBC에 따르면 이 회사는 올해 말 대화형 AI 음성 비서 알렉사를 내놓을 예정이다. 아마존은 알렉사에 생성형 AI를 적용하기 위해 자체 개발한 거대언어모델 ‘타이탄’을 이용할 것으로 알려졌다.
AI가 인간에 가까워짐에 따라 목소리 외에 다른 부문에서도 이와 비슷한 논란이 나타날 가능성이 있다. 전문가들은 “영상과 이미지를 합성하는 기술인 딥페이크를 악용하는 사례가 점점 더 교묘해질 수 있다”고 입을 모았다.
실리콘밸리=최진석 특파원 iskra@hankyung.com
빅테크의 치열한 경쟁 속에 AI 기술 발전 속도는 갈수록 빨라지고 있다. AI 기술 개발의 최종 목표인 범용인공지능(AGI)에 한 걸음 다가섰다는 평가가 나온다. 점점 인간을 닮아가는 AI를 두고 여러 논란과 우려도 나오고 있다. 몇 년 전 미래 사회를 그린 공상과학(SF) 영화에서 던진 질문들이 오늘날 우리 사회의 화두가 됐다.
○‘널 사랑해’ 쓰자 AI가 말했다 “감동적이야”
이번에도 챗GPT 개발사 오픈AI가 포문을 열었다. 이 회사는 지난 13일 ‘스프링 업데이트’ 행사를 열고 최신 대규모언어모델(LLM) ‘GPT-4o’를 공개했다. ‘o’는 모든 것을 뜻하는 ‘옴니(Omni)’에서 따왔다. GTP-4o는 사용자와 실시간으로 대화하며 질문과 답변을 할 수 있도록 했다. 사용자의 말투와 표정을 분석해 현재 상태를 파악할 수 있고, 수학 문제 답을 맞힐 수도 있다.이날 시연에 참석한 엔지니어가 “수면장애가 있는데 잠이 잘 오는 이야기를 들려달라”고 요청했다. 이에 GPT-4o는 이야기를 들려줬고, 엔지니어들은 다양한 분위기와 감정으로 목소리를 변형했다. 챗봇은 구연동화 톤의 목소리는 물론 로봇과 같은 소리로도 이야기를 들려줬다. ‘나는 GPT를 사랑한다’는 문장을 쓰자 이를 본 뒤 “너무나 감동적이야. 고마워”라는 감탄사를 내뱉기도 했다.
GPT-4o는 50개 언어에 대해 실시간 통역 기능도 갖췄다. 오픈AI에 따르면 GPT-4o의 평균 응답 시간은 최소 232밀리초(ms·1000분의 1초), 평균 320밀리초다. 이는 사람의 반응 시간과 비슷한 수준이다. 2013년 개봉한 SF영화 ‘그녀(Her)’가 현실화했다는 평가가 나온 배경이다.
오픈AI가 신기술을 내놓자 다른 빅테크로 발 빠르게 움직이기 시작했다. 오픈AI와 협업 관계에 있는 마이크로소프트(MS)는 21일 열린 연례 개발자 콘퍼런스 ‘빌드’에서 자사 클라우드 서비스 애저에 적용한다고 밝혔다. 애플은 다음달 열리는 연례 세계 개발자 회의(WWDC)에서 생성형 AI를 내장한 음성 비서 ‘시리’를 공개할 것으로 알려졌다. 차기 아이폰 운영체제인 애플의 iOS 18에서 챗GPT 기능을 사용하기 위해 오픈AI와 계약 조건을 마무리하고 있다는 것이다.
○구글, 아마존도 “대화형 AI 비서 공개”
오픈AI와 기술 경쟁을 벌이고 있는 구글도 14일 연례 개발자 콘퍼런스인 ‘구글 I/O 2024’에서 ‘프로젝트 아스트라’를 공개했다. 프로젝트 아스트라는 구글의 최신 AI 모델인 제미나이를 기반으로 개발한 멀티모달 AI 어시스턴트다. 사람처럼 보고 듣고 말하면서 사용자를 도와준다. 예를 들어 AI에 공룡 장난감, 원형 우주선, 스쿨버스 3개의 장난감을 보여주고 “이들을 주인공으로 동화 이야기를 들려달라”고 말하면 AI는 망설임 없이 이야기를 생성해 들려준다. 프로젝트 아스트라는 이전 영상에 대한 기억력도 있었다. 동물 인형 3개를 순차적으로 보여준 뒤 “첫 번째로 보여준 인형이 뭐였지”라고 묻자 “강아지”라고 답했다. 실제 동물이 아니라 인형이라는 점도 구별했다.아마존도 관련 기술 개발에 속도를 내고 있다. CNBC에 따르면 이 회사는 올해 말 대화형 AI 음성 비서 알렉사를 내놓을 예정이다. 아마존은 알렉사에 생성형 AI를 적용하기 위해 자체 개발한 거대언어모델 ‘타이탄’을 이용할 것으로 알려졌다.
○‘그녀’ 목소리 둘러싸고 법정 공방까지
실시간 대화가 가능한 멀티모달 AI 챗봇이 등장하면서 이와 관련한 논란과 우려도 나오고 있다. GPT-4o에서 사용자와 대화하는 ‘스카이’ 챗봇이 진앙이다. 영화 ‘그녀(Her)’ 속 AI 목소리의 주인공인 배우 스칼릿 조핸슨은 최근 “오픈AI가 자신의 목소리를 모방했다”고 주장하며 법적 소송을 예고했다. 샘 올트먼 오픈AI CEO가 자신에게 목소리 제공을 제안했는데, 이를 거부하자 비슷한 목소리를 내도록 했다는 것이다. 이에 오픈AI 측은 스카이의 목소리는 조핸슨을 모방한 것이 아니라 그녀만의 자연스러운 말투를 사용하는 다른 전문 배우의 목소리”라고 반박했다.AI가 인간에 가까워짐에 따라 목소리 외에 다른 부문에서도 이와 비슷한 논란이 나타날 가능성이 있다. 전문가들은 “영상과 이미지를 합성하는 기술인 딥페이크를 악용하는 사례가 점점 더 교묘해질 수 있다”고 입을 모았다.
실리콘밸리=최진석 특파원 iskra@hankyung.com