[단독] '820건' 공공데이터 오류 모르고, 원본 부랴부랴 삭제하는 서울시

뉴스래빗 #데이터정책제안
△ "원본데이터 수정" 안일한 공무원 인식

▽ 서울시 그때그때 달라지는 원본 데이터
▽ 박 시장 한해에만 820건 중복 기재 오류
▽ 서울시 "잘못된 자료 시민에게 제공" 인정
▽ '공공데이터=공식자료' 꼼꼼한 검증 필수
서울시 정보소통광장. 2019년 5월 24일 보도 당시 자료에 첨부된 중복 문서는 보도 이후 서울시에 의해 삭제되어 찾을 수 없다.
서울시의 공공데이터 원본 자료 공개 및 서비스에 오류가 발견됐습니다. 서울시가 각종 서울시정 관련 공공데이터를 외부에 공개하는 '정보소통광장(opengov.seoul.go.kr)' 시스템에서입니다.

이는 전국 지방자치단체 및 공공기관의 업무추진비 내역을 분석하는 뉴스래빗 [세금미식회] 서울시 1편 보도를 통해 드러났습니다.
○ 관련기사 : [세금미식회] I 피자 U…박원순 서울시장…유별난 '미스터피자' 사랑

박원순 서울특별시장 및 여타 서울시 공무원의 업무추진비 세부 내역 1건 당 매달마다 적게는 2번씩, 많게는 4번씩 중복 기재됐습니다. 박 시장 업무추진비 중복 기재 내역은 2018년 한해에만 820건에 달했습니다.서울시는 이 같은 내부 시스템 오류를 모르고 방치했습니다. 5월 24일 뉴스래빗의 지적 이후 서울시청은 부랴부랴 관련 공공데이터 다운로드 서비스를 중단한 뒤, 원본 데이터를 삭제하고, 수정하고 있습니다. 무엇보다 "공공 원본데이터는 (상황에 따라) 수정할 수 있다"는 안일한 인식이 서울시 공공데이터 정책의 문제점입니다.
박원순 서울특별시장. 사진=연합뉴스

8억 7343만원 아니라
3억 2700만원이라는 서울시
한해만 무려 820건 중복 기재

2019년 5월 24일 [세금미식회] 서울시 1편에서 뉴스래빗은 "서울시가 2018년 한 해간 쓴 업무추진비가 총 114억1496만1293원, 이 가운데 소방본부, 의회사무처 등을 제외한 서울시청 본청이 69억4713만980원을 사용했다. 이는 전체의 61%"라고 보도했습니다.

서울시청엔 실·국·본부급 부서가 총 140곳 있습니다. '서울특별시장(시장실)'도 그 중 한 곳. 2018년 한해동안 박원순 서울특별시장은 8억7343만8657원의 업무추진비를 썼습니다. 이는 서울시 전체 실·국·본부급 부서들 중 가장 많은 액수입니다. 물론 8억원이 넘는 돈을 모두 박 시장이 혼자 쓴 건 아닙니다. 시장실에도 여러 직원들이 있고, 시청 용역직원과 시민을 격려하기 위한 지출이 적지 않습니다. 다만 시장실 업무가 서울시장에 의한, 서울시장을 위한 일들임을 고려하면 사실상 '시장이 쓴 업무추진비'인 건 분명합니다. 특히 2018년 한해 서울 곳곳의 브랜드 피자가게 '미스터피자'에서만 8500만원에 달하는 업무추진비를 쓴 점도 보도했습니다. 미스터피자는 2018년 8월 "본사 물품을 점주에 강매하던 문화를 없애겠다"며 서울시와 상생협약을 체결했습니다. 박 시장의 미스터피자 애용의 배경이었습니다.

문제는 [세금미식회] 1편 보도 이후였습니다. 보도 직후인 2019년 5월 24일 오후 서울시 행정국 서무과는 "2018년 박원순 서울시장이 쓴 업무추진비는 3억2700만5045원"이라고 보도 정정을 요청해왔습니다.

뉴스래빗이 집계한 8억7343만8657원의 절반도 안 됩니다. 뉴스래빗은 데이터저널리즘 기법으로 자체적으로 데이터를 수집하고, 결과를 도출합니다. 서울시청의 경우 2017년 1월부터 2019년 4월까지 월별로 공개한 문서에서 지출 내역 17만7550건을 수집했습니다. 뉴스래빗은 이후 수차례 원본 데이터를 재검증했습니다.

하지만 데이터에 따른 결론은 서울시청 주장인 '3억2700만5045원'이 아닌 뉴스래빗의 원 취재 결과인 8억7343만8657원이 맞았습니다. 왜 이런 일이 발생했을까요. 뉴스래빗이 전수 확인한 결과 원본 데이터에서 심각한 오류를 발견했습니다. '박원순 서울특별시장' 업무추진비 내역 1건 당 적게는 2회, 많게는 4회씩 중복 기재돼 있었습니다.

뉴스래빗이 2019년 5월 16일 정보소통광장에서 수집했던 박 시장 업무추진비 1년 원본데이터는 1336건이었습니다. 추후 서울시청 측이 중복 기재를 손으로 걸러 제외하고 공식 자료라고 뉴스래빗에 제공한 내역은 516건이었습니다. 결과적으로 1년 한해에만 박 시장 업무추진비 공공데이터엔 무려 820건의 중복 내역이 포함된 겁니다.
서울시 정보소통광장에서 제공하는 2018년 1월 박원순 서울시장 업무추진비 내역. 모든 건이 2번씩 중복 기재돼있다.

그때그때 달라지는 원본 데이터
수정 '사유' 공개하지 않는다

취재 결과 그 오류 원인은 이랬습니다.서울시는 업무추진비 사용 내역 원본 데이터를 자동으로 생성합니다. 정보소통광장에 부서별로 공개하는 업무추진비 문서를 취합해 CSV(comma separated values, 쉼표로 값이 구분된 데이터) 파일을 만드는 일까지 시스템이 합니다.

업무추진비 내역을 수정할 일이 생기면 문서를 다시 만드는 방식이 화근이었습니다. 서울시는 한두 건씩만 추가하거나 바꾼 표를 정보소통광장에 반복 업로드했고, 시스템은 내역 중복을 거르지 않고 취합하고 있습니다.

서울시 정보소통광장에서 제공하는 2018년 8월 박원순 서울시장 업무추진비 내역을 보면 같은 사용내역이 각각 다른 문서 주소와 연결돼있습니다. 서울시가 같은 내역을 중복해서 업로드한 증거죠.
서울시 정보소통광장에서 제공하는 2018년 8월 박원순 서울시장 업무추진비 내역. 같은 사용내역이 각각 다른 문서 주소와 연결돼있다. 서울시가 같은 내역을 중복해서 업로드한 증거. 현재 중복 내역을 포함한 문서들은 서울시가 정보소통광장에서 삭제 중이다.
5월 24일 뉴스래빗의 지적 이후 서울시청 측은 해당 데이터의 원본 다운로드를 중단시켰습니다. 중복 내역을 포함한 문서들을 정보소통광장에서 삭제하기 위해서입니다.

공공데이터 원본 수정 작업이 계속 되고 있는 겁니다. 물론 외부 시민들은 이 같은 사실을 잘 알 수 없습니다. 지금 다운로드 받은 서울시 공공데이터 내역이 어제 받은 내역과 같은지 알 수 없습니다. 서울시는 원본 데이터 수정 내역이나 사유는 따로 공표하지 않으니까요.

오류 몰랐던 서울시
"잘못된 자료 시민에게 제공" 인정

더 문제는 서울시가 뉴스래빗 보도 이전까지 시스템 결함을 인지하지 못했다는 점입니다.

서울시청 행정국 총무과는 "서울시장의 경우 지출 내역을 수정할 일이 잦아 이런 일이 발생했다"고 해명했습니다. 이병욱 행정국 총무과 서무팀장은 "시스템 결함으로 시민에게 잘못된 자료를 제공하고 있었다"고 인정하며 "추후 시스템을 개선해 이런 일이 없도록 하겠다"고 밝혔습니다.

뉴스래빗은 서울시와 추가 협의를 통해 서울시가 공식 집계했다는 박 시장 2018년 1년치 업무추진비 내역을 받았습니다. ▽ 아래 파일이 해당 문서입니다.
○ 수정 내역 : [세금미식회] I 피자 U…박원순 서울시장…유별난 '미스터피자' 사랑

뉴스래빗은 이를 다시 분석했습니다. [세금미식회] 1편 기사에 해당 내용을 덧붙임으로 추가했습니다. 서울시 정보공개 체계의 문제 때문에 발생한 일이지만, 올바른 정보를 제공해 독자 여러분의 혼선을 방지하기 위해서입니다. 아래 그래프는 수정된 박 시장의 2018년 업무추진비 사용 세부 내역입니다.


기존 기사는 그대로 남겨 뒀습니다. 전국 지자체 중 정보공개가 가장 우수하다고 평가받아온 서울시의 문제점을 외부에 공유하고, 개선하고, 기록하기 위한 차원입니다. 서울시 업무추진비 취합 시스템은 아직도 고쳐지지 않았습니다. 서울시의 빠른 조치와 정보공개 체계 개선을 바랍니다.

"원본데이터 수정" 안일한 인식
'공공데이터=공식자료' 검증 필수

'정보소통광장'엔 박 시장 및 서울시청 공무원의 업무추진비 내역뿐만 아니라 서울시가 진행하는 모든 정책 및 사업, 행사와 관련한 무수한 공식 자료가 공개됩니다. 이 같은 공공데이터에 신뢰성과 정확성은 생명입니다. 국가 정보공개법에 따라 국민과 시민의 '알 권리'를 충족하기 위한 공식 자료이기 때문입니다.

특히 서울시청 담당 공무원은 "원본 공공데이터는 수정할 수 있다. 이를테면 국장 건(업무추진비)인데 시장 걸로 들어가 있거나 한다"고 당당히 말했습니다. 국민 세금으로 쓰는 업무추진비 집행 내역 산정 및 공개를 꼼꼼히 하지 않는다는 뜻입니다. 공공데이터 상 실수가 발견될 때 차후 수정해도 문제 없다는 인식이 문제입니다.

이는 여전히 한국의 공무원들이 공공데이터 공개 원본데이터의 중요성과 그 의미를 알지 못하기 때문에 발생합니다.

공공데이터의 신뢰성을 믿고 활용하는 외부 저널리스트나 제3자 서비스 제공자에겐 참 허망한 말씀입니다. 이는 어쩌면 재앙에 가깝습니다. 그 잘못된 원본 공공데이터들이 결국 시민의 일상 정보로 쉼없이 쓰여지기 때문입니다. 공공데이터에 얼마나 더 많은 허점이 있을지 알 수조차 없는 노릇입니다.
박원순 서울시장. I.SEOUL.U '너와 나의 서울' 홍보 캐치프레이즈가 보인다. 사진=연합뉴스
다시한번 전국 공무원분들께 요청드립니다. 여러분이 공개하시는 수많은 공공데이터는 오늘도 시민들의 삶에 다양한 방식으로 영향을 미치고 있습니다.

뉴스래빗이 공공데이터를 만들고, 공개하는 전국 지자체 및 공공기관에 3가지 데이터 정책을 제안드립니다.

첫째, 내부용으로 보고용으로 손으로 재집계해 공식자료로 활용하지 마시고, 원본 공공데이터 자체가 공식자료라는 인식을 가져 주세요.

둘째, 공공데이터 원본부터 꼼꼼히 들여다보고 검증해주세요.

셋째, 원본 공공데이터 수정 내역이나 사유는 따로 국민과 시민에게 알려주세요. 공문서 위변조를 차단하는 블록체인 기술이 이런 공공영역에 적용돼야한다는 의견이 나오는 이유입니다.

뉴스래빗 [데이터 정책제안]에 많은 고민 부탁드립니다 !.!
# 데이터 정책제안 ? 질 좋은 데이터저널리즘 콘텐츠는 양질의 데이터를 확보할 때 비로소 완성됩니다. 뉴스래빗이 공공데이터 수집 및 정제, 분석 등 과정에서 겪은 문제점이나 애로사항을 바탕으로 데이터 관련 정책을 정부 및 지자체, 공기업 등 공공부문에 제안합니다.

책임= 김민성, 연구= 강종구 한경닷컴 기자 mean@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com