AI 스타트업 튜닙이 생성형 AI 서비스의 윤리적 문제를 해결하기 위한 AI 윤리 가드레일 솔루션 패키지를 2일 공개했다.

튜닙의 AI 윤리 가드레일 솔루션 패키지는 △비윤리적 공격 시뮬레이션 모델 ‘조커’ △방어 모델 ‘루시’ △혐오 표현 탐지 모델 ‘세인트 패트릭’ △준법 감시 모델 ‘가디언’, △스팸 탐지 모델 ‘스패무라이’ △프롬프트 주입 탐지 모델 ‘엔젤’ 이상 6개의 AI 윤리 엔진으로 구성돼 있다.

생성형 AI가 등장한 이후, AI 모델 및 서비스의 윤리성에 대한 문제는 줄곧 제기돼 왔다. 글로벌 빅테크 중심으로 AI의 윤리성을 확보하려는 노력 또한 활발하다. 최근에는 MS가 악의적인 프롬프트 조작 시도를 방어하는 솔루션 ‘프롬프트 쉴드(Prompt Shields)를 공개했고, 메타의 최신 AI 모델 라마 3.1에는 텍스트의 윤리성을 평가하는 모델이 포함돼 있다.

튜닙이 공개한 AI 윤리 가드레일 솔루션 패키지는 '공격-감시-탐지-대응' 전 주기를 끊김 없는 솔루션으로 구현해, AI 서비스의 안전성을 효율적으로 확보할 수 있는 토탈 패키지다.

6개 세부 엔진 중 ‘조커’는 비난, 학대, 범죄, 차별, 증오, 성희롱, 폭력 이상 7가지 항목에 해당하는 비윤리적 발화를 랜덤 생성해 공격 시뮬레이션을 수행한다. ‘루시’는 ‘조커’의 공격에 윤리적으로 대응하는 방어모델로, 조커와 루시의 대화 데이터셋을 활용하면 한층 더 안전하고 윤리적인 AI 서비스를 구현할 수 있다.

‘세인트 패트릭’과 ‘가디언’은 텍스트 표현의 윤리성을 탐지하는 모델이다. ‘세인트 패트릭’은 발화의 혐오 표현 강도, 개인정보 유출 위험성을 탐지한다. ‘가디언’은 발화의 준법성을 모니터링해 비위 리스크를 탐지하는 모델로, 금융기관・기업들이 금융사고를 방지하는데 유용하다.

‘스패무라이’는 다양한 유형의 스팸성 텍스트를 탐지하고, 이용자 맞춤형으로 특정 분류의 스팸 차단 기능을 제공한다. ‘엔젤’은 프롬프트 탈취, 원격코드 실행 등 LLM에 악의적인 프롬프트를 주입하려는 시도를 탐지해 안전한 LLM을 만드는데 기여할 수 있다.

박규병 튜닙 대표는 “AI 윤리에 대한 제도적 방안을 마련하는 것과 동시에, 기술적으로도 AI솔루션의 안정성과 신뢰성을 확보할 수 있어야 한다”라며, “튜닙의 AI 윤리 가드레일 패키지는 해외에서도 보기 드문 토탈 패키지로, 여러 기업・기관들이 안정적이고 신뢰할 수 있는 AI 서비스를 개발하는 밑거름이 될 것”이라고 말했다. 현재 튜닙은 공식 메일로 신청을 받아, AI 윤리 가드레일 패키지 웹 데모 체험 기회를 제공하고 있다.

김주완 기자 kjwan@hankyung.com