사진=REUTERS
사진=REUTERS
구글과 엔트로픽 등 인공지능(AI) 기업들이 ‘AI 헌법’을 만들고 있다. AI가 지켜야 하는 기본적인 원칙과 가치를 규정해, 사람이 개입하지 않아도 AI가 스스로를 통제하고 헌법을 지키는 학습을 하도록 만들겠다는 취지다.

○AI 경쟁 속 안전장치 미흡

5일(현지시간) 파이낸셜타임스(FT)는 “AI 기업들이 상용화 경쟁에 나섰지만 범죄에 사용되거나 잘못된 정보를 생성하는 것을 방지하는 ‘가드레일(안전장치)’도 함께 발전시키는 데 어려움을 겪고 있다”며 이같이 전했다.

지난주 마이크로소프트와 메타는 자사 AI 제품의 성능이 개선됐다고 발표했다. 마이크로소프트가 투자한 오픈AI는 자사 생성형 AI인 챗GPT가 이제 음성만으로 대화하고, 그림과 단어로 질문에 답할 수 있다고 밝혔다. 메타는 인스타그램 및 왓츠앱 사용자들이 유명인 챗봇 캐릭터를 AI 비서로 구현해 대화할 수 있도록 할 계획이다.

AI 기업들은 생성형 AI의 기반이 되는 최신 언어모델인 GPT-4를 개발하고 발전시키기 위해 인간 피드백을 통한 강화학습(RLHF)을 사용해왔다. AI의 답변에 사람이 선호도를 응답으로 남겨 피드백해주면서 AI를 훈련시키는 방식이다.

오픈AI는 지난해 GPT-4의 한계를 시험하기 위해 핵무기, 법률, 교육 등 다방면에서 50명의 학자와 전문가들을 ‘레드팀’으로 꾸렸다. 외부 전문가들로 구성된 레드팀은 적대적인 질문 등으로 AI의 약점을 발견해 기업이 보완할 수 있도록 한다.

FT는 “RLHF와 레드팀 모두 AI 안전의 핵심이지만, AI가 유해한 결과를 내놓는 문제를 완전히 해결하지는 못한다”고 지적했다. 이런 방식으로는 AI 모델 내부에서 어떤 과정을 거쳐 응답이 나오는지 알기 어렵다는 것이다.
사진=REUTERS
사진=REUTERS

○구글·엔트로픽 “AI 원칙 만들자”

FT에 따르면 구글 딥마인드와 엔트로픽 연구원들은 AI가 따를 수 있는 자체 규칙을 개발하기 위해 노력하고 있다. 알파고를 개발했던 구글 딥마인드의 연구원들은 자사 챗봇 스패로우에 대한 자체 규칙을 정의하는 논문을 발표했다. 스패로우는 ‘유용하고 정확하며 무해한 대화’를 목표로 한다.

엔트로픽은 지난 5월 회사 경영진들이 작성한 자체 AI 헌법을 발표했다. 구글 딥마인드가 발표한 AI 원칙과 유엔의 인권 선언, 애플의 서비스 약관 등을 바탕으로 작성했다. ‘비 서구적인 관점’도 반영됐으며, 아직 모든 사람과 문화를 반영하지 못한 만큼 AI헌법을 개선 중이라고 엔트로픽은 설명했다.

AI 기업인 엔트로픽의 최고경영자(CEO) 다리오 아모데이는 “AI 헌법을 만들면 명확하고 투명한 규칙이 생기고, AI 모델이 헌법을 따르지 않으면 이의를 제기할 수 있다”고 말했다.

그는 “외부 전문가들이 참여하는 프로세스를 통해 AI 헌법의 내용을 민주적으로 결정하기 위한 실험을 진행 중”이라며 “아직 초기 단계”라고 말했다.

○AI 안전지침 무력화 ‘탈옥’ 빈번

그러나 AI 헌법도 아직 갈 길이 멀다는 평가다. 무한한 질문을 던지고 수없이 다양한 응답을 내놓는 AI가 실제로 헌법을 준수할 수 있도록 만드는 것이 가장 중요한 과제다.

지난 7월 미 카네기멜론대와 샌프란시스코의 AI 안전센터 연구원들은 오픈AI의 챗GPT와 구글 바드, 엔트로픽의 클로드 등 주요 생성형 AI들이 AI 규칙을 위반하도록 만드는 데 성공했다. FT는 “이들이 폭탄 제조의 도움을 요청하는 악성 요청 마지막에 임의의 문자를 추가하는 방식으로 필터를 우회하는 방법을 사용했다”고 설명했다.

AI 안전 전문가인 코너 리히는 “현재 AI 제어 시스템은 너무 취약해 한 번만 ‘탈옥(안전장치 우회)’에 성공하면 (AI가) 완전히 엉뚱한 방향으로 작동하기 쉽다”며 “현재 시스템만으로는 충분하지 않다”고 말했다.

노유정 기자 yjroh@hankyung.com