개인정보위 "LLM 데이터 학습 전 주민번호 등 중요 정보 제거해야"
입력
수정
대규모 언어모델(LLM) 학습 과정에서 주민등록번호, 신용카드번호 등 개인정보가 포함될 수 있어 개선이 필요하다는 조사 결과가 나왔다. 사업자들이 서비스 개선을 목적으로 이용자가 입력한 프롬프트를 들여다볼 경우 이를 사전에 알리는 절차도 추가된다.
개인정보보호위원회는 지난 27일 전체 회의를 열고 LLM을 개발·배포하거나 이를 기반으로 인공지능(AI) 서비스를 제공하는 6개 사업자에 대해 개인정보 보호의 취약점을 보완하도록 개선 권고를 의결했다고 28일 발표했다.이번에 포함된 업체는 오픈AI, 구글, 마이크로소프트, 메타, 네이버, 뤼튼 등 6곳이다.
개인정보위는 초거대 AI, 생성형 AI 서비스가 확산에 따른 프라이버시 침해 우려에 따라 작년 11월부터 주요 AI 서비스를 대상으로 사전 실태점검을 진행했다.
취약점 점검 결과 전반적으로 개인정보 처리 방침 공개, 데이터 전처리, 정보 주체의 통제권 보장 등 개인정보보호법상 기본 요건을 대체로 충족하는 것으로 나타났다. 하지만 개인정보가 포함된 대규모 데이터를 학습하는 AI 서비스의 비가역성을 고려해 투명성과 접근성을 높일 필요가 있는 것으로 판단됐다.AI 서비스 제공사업자는 인터넷에 공개된 데이터를 수집해 AI 모델 학습 데이터로 쓴다. 이 과정에서 주민등록번호, 신용카드번호 등 한국인의 중요한 개인정보가 포함될 수 있는 것으로 나타났다. 오픈AI, 구글, 메타는 개인정보 집적 사이트를 AI 모델 학습에서 배제하고, 학습데이터 내 중복 및 유해 콘텐츠 제거 조치와 AI 모델이 개인정보를 답변하지 않도록 하는 조치를 적용하고 있다. 하지만 학습 데이터에서 주민등록번호 등 주요 식별정보를 사전 제거하는 조치가 충분하지 않은 것으로 확인됐다.
개인정보위는 AI 서비스 제공 단계별 보호조치 강화를 요구하는 한편 사전 학습 단계에서 주요 개인식별정보 등이 제거될 수 있도록 인터넷에 국민의 개인정보가 노출된 것을 탐지한 데이터를 AI 서비스 사업자에게 제공할 계획이다.
이용자들이 AI 서비스에 입력한 질문과 AI의 답변 내용을 사업자가 직접 열어보는 것도 문제로 나타났다. 사업자는 AI 모델 학습과 프롬프트 등 서비스 개선에 이를 활용하고 있지만 이용자 입장에선 본인이 입력한 데이터를 사람이 확인하는 과정을 알기 어렵다는 지적이다. 중요한 개인정보나 이메일 등 민감한 내용을 입력하고 이를 사업자가 데이터화할 경우 사생활 침해로 이어질 수 있는 것으로 나타났다. 실제로 특정 AI 서비스 이용자들이 작년 12월 30일부터 일주일간 입력한 데이터를 보면 전화번호 672건, 이메일주소 142건 등이 포함됐다. 주민등록번호(2건)와 여권번호(34건)를 입력한 사례도 있었다.개인정보위는 이용자 입력 데이터에 대한 인적 검토과정을 거치는 경우 사전 식별정보 제거 조치를 준수하고 이용자에게 관련 사실을 명확하게 고지하는 한편 이용자가 입력 데이터를 손쉽게 제거·삭제할 수 있도록 해당 기능에 대한 접근성을 높일 것을 권고했다.
개인정보위는 다음 달 이후 딥엘, SK텔레콤, 스노우, 뷰노 등의 AI 서비스에 대한 실태점검 결과도 발표할 예정이다.
개인정보위 관계자는 “향후 AI 모델의 고도화, 오픈 소스 모델의 확산 등 새로운 AI 기술과 산업 변화에 맞춰 이용자의 개인정보를 안전하게 보호할 수 있도록 지속해서 모니터링하고 후속 조치를 추진할 계획”이라고 설명했다.
이승우 기자 leeswoo@hankyung.com
개인정보보호위원회는 지난 27일 전체 회의를 열고 LLM을 개발·배포하거나 이를 기반으로 인공지능(AI) 서비스를 제공하는 6개 사업자에 대해 개인정보 보호의 취약점을 보완하도록 개선 권고를 의결했다고 28일 발표했다.이번에 포함된 업체는 오픈AI, 구글, 마이크로소프트, 메타, 네이버, 뤼튼 등 6곳이다.
개인정보위는 초거대 AI, 생성형 AI 서비스가 확산에 따른 프라이버시 침해 우려에 따라 작년 11월부터 주요 AI 서비스를 대상으로 사전 실태점검을 진행했다.
취약점 점검 결과 전반적으로 개인정보 처리 방침 공개, 데이터 전처리, 정보 주체의 통제권 보장 등 개인정보보호법상 기본 요건을 대체로 충족하는 것으로 나타났다. 하지만 개인정보가 포함된 대규모 데이터를 학습하는 AI 서비스의 비가역성을 고려해 투명성과 접근성을 높일 필요가 있는 것으로 판단됐다.AI 서비스 제공사업자는 인터넷에 공개된 데이터를 수집해 AI 모델 학습 데이터로 쓴다. 이 과정에서 주민등록번호, 신용카드번호 등 한국인의 중요한 개인정보가 포함될 수 있는 것으로 나타났다. 오픈AI, 구글, 메타는 개인정보 집적 사이트를 AI 모델 학습에서 배제하고, 학습데이터 내 중복 및 유해 콘텐츠 제거 조치와 AI 모델이 개인정보를 답변하지 않도록 하는 조치를 적용하고 있다. 하지만 학습 데이터에서 주민등록번호 등 주요 식별정보를 사전 제거하는 조치가 충분하지 않은 것으로 확인됐다.
개인정보위는 AI 서비스 제공 단계별 보호조치 강화를 요구하는 한편 사전 학습 단계에서 주요 개인식별정보 등이 제거될 수 있도록 인터넷에 국민의 개인정보가 노출된 것을 탐지한 데이터를 AI 서비스 사업자에게 제공할 계획이다.
이용자들이 AI 서비스에 입력한 질문과 AI의 답변 내용을 사업자가 직접 열어보는 것도 문제로 나타났다. 사업자는 AI 모델 학습과 프롬프트 등 서비스 개선에 이를 활용하고 있지만 이용자 입장에선 본인이 입력한 데이터를 사람이 확인하는 과정을 알기 어렵다는 지적이다. 중요한 개인정보나 이메일 등 민감한 내용을 입력하고 이를 사업자가 데이터화할 경우 사생활 침해로 이어질 수 있는 것으로 나타났다. 실제로 특정 AI 서비스 이용자들이 작년 12월 30일부터 일주일간 입력한 데이터를 보면 전화번호 672건, 이메일주소 142건 등이 포함됐다. 주민등록번호(2건)와 여권번호(34건)를 입력한 사례도 있었다.개인정보위는 이용자 입력 데이터에 대한 인적 검토과정을 거치는 경우 사전 식별정보 제거 조치를 준수하고 이용자에게 관련 사실을 명확하게 고지하는 한편 이용자가 입력 데이터를 손쉽게 제거·삭제할 수 있도록 해당 기능에 대한 접근성을 높일 것을 권고했다.
개인정보위는 다음 달 이후 딥엘, SK텔레콤, 스노우, 뷰노 등의 AI 서비스에 대한 실태점검 결과도 발표할 예정이다.
개인정보위 관계자는 “향후 AI 모델의 고도화, 오픈 소스 모델의 확산 등 새로운 AI 기술과 산업 변화에 맞춰 이용자의 개인정보를 안전하게 보호할 수 있도록 지속해서 모니터링하고 후속 조치를 추진할 계획”이라고 설명했다.
이승우 기자 leeswoo@hankyung.com