[데이터 정책제안] 서울시 데이터 '콘트롤 타워'가 없다

뉴스래빗 데이터 정책제안 2회
"데이터도 디테일이 필요합니다"

'오픈API' 서울시 데이터 '필터' 필요
서울시 데이터=같은 작업 25번 반복
서울시 공공데이터의 모범이 되려면
[편집자 주] '데이터 정책제안'은 뉴스래빗이 오랫동안 고심한 콘텐츠입니다. 뉴스래빗은 지난 1년여 간 [DJ 래빗], [데이터텔링] 등 데이터저널리즘 콘텐츠를 지속 생산해왔습니다. 특히 국민 생활과 밀접한 미세먼지, 지하철, 흡연구역, 식품위생업소, 표준어 등 관련 공공데이터를 분석해 30편이 넘는 데이터저널리즘 콘텐츠를 선보였습니다.그러나 매번 아쉬움이 남습니다. 공공데이터를 공개하는 정부나 지자체, 기관 등은 늘고 있지만 접근성 및 사용성은 여전히 기대 이하인 탓입니다. 합법적 정보공개청구로 데이터를 얻는 일 역시 문턱은 높습니다.

질 좋은 데이터저널리즘 콘텐츠는 양질의 데이터를 확보할 때 비로소 완성됩니다. 뉴스래빗이 수집, 정제, 분석 등 공공데이터 활용 과정에서 겪은 어려움을 바탕으로 데이터 관련 정책을 제안합니다.

[데이터 정책제안] 두 번째, 서울시 데이터 편입니다. 서울시는 예산과 인력을 들여 데이터 오픈 API(애플리케이션 프로그래밍 인터페이스)까지 구축한 모범적 지자체입니다. 다만 사용성 및 접근성이 다소 아쉽습니다. 서울시 오픈API가 보다 나은 데이터 곳간으로 성장할 수 있도록 데이터 정책을 제안합니다.#1. 서울시 오픈API는 있지만
엑셀 파일과 크게 다를 바 없다

뉴스래빗은 서울시 식품위생업소 현항을 분석한 [#서울맵] 시리즈를 꾸준히 선보이고 있습니다. 지난 2월부터 서울시 데이터를 활용, 서울 내 커피, 치킨, 카스텔라, 피자, 빵 등 다양한 업종의 흥망성쇠를 조명했죠.
[#서울맵] 시리즈 모아보기
#서울커피맵 #서울치킨맵 #서울피자맵 #서울카스텔라맵 #서울빵집맵
서울시는 열린 데이터 광장에 각 구 별 식품위생업소 현황을 공개합니다. 공식 기록에 남아있는 시내 모든 식품위생업소의 수십년 치 개·폐업 이력을 열람할 수 있습니다. 데이터는 오픈API 방식으로 제공합니다.
오픈 API가 뭐나고요? 데이터 저널리스트가 필요한 정보 요청 사항을 프로그래밍해 서울시 서버로 보내면 결과값을 되돌려주는 방식입니다. 오픈API를 호출하는 프로그래밍 방식에 따라 방대한 자료에서 원하는 부분만 추출할 수 있어 파일 데이터보다 편리합니다. 파일 데이터는 뭐나고요? 수만가지 정보가 하나의 엑셀 파일에 몽땅 담긴 형태입니다. 다운로드 받아 사용자가 알아서 일일이 찾아야해서 번거롭습니다.
서울시 열린 데이터 광장 내 식품위생업소 현황. 파일 데이터(sheet)와 더불어 오픈API도 함께 제공한다.
뉴스래빗은 [#서울맵] 시리즈 데이터를 오픈API를 통해 수집합니다. 서울시는 매일 실시간으로 개·폐업 현황을 업데이트합니다. 사람이 일일이 파일 데이터를 확인해서 다운로드 받지 않아도 돼 편리합니다. 데이터 업데이트 주기도 비정기적이어서 사람이 기다리고 있을 수도 없죠. 그래서 서울시가 제공하는 오픈 API는 사용자에게 편이합니다.다만 사용성에 다소 문제가 있습니다. 오픈API 방식으로 데이터를 공개할 경우 대부분 필터(filter) 기능을 함께 제공합니다. 방대한 데이터에 조건을 부여해 필요한 내용만 쉽게 뽑아가는 도록 하기 위해서죠. 사용자(국민)와 제공자(공공) 모두에게 효율적입니다. 사용자는 데이터 수집 시간을 절약할 수 있고, 제공자는 트래픽 부담을 덜 수 있죠.
페이스북이 제공하는 오픈API인 '그래프 API'. 다양한 필터를 적용해 서버에 특정 데이터만 요청할 수 있다.
그러나 서울시 식품위생업소 데이터는 오픈API 방식의 장점을 살리지 못하고 있습니다. 냉정하게 말하면 전체 데이터를 통째로 받아 사용하는 파일 데이터, 즉 엑셀 파일과 크게 다를 바 없는 실정이죠. 그 이유를 설명해드릴게요.

#2. 25개 구 별 쪼개진 데이터
서울시 데이터=같은 작업 25번 반복
서울시 식품위생업소 데이터엔 개·폐업일 및 사유, 읍면동, 매장 크기 등 다양한 항목이 있습니다. 오픈API가 필터를 제공했다면 조건 딱 맞는 데이터만 빠르고 효율적으로 받을 수 있습니다. 하지만 서울시 오픈 오픈API엔 이 같은 필터가 없습니다. 뉴스래빗이 수십만 건에 달하는 식품위생업소 개·폐업 이력 전수를 받아 자체 필터로 걸러내야 합니다.서울시 통합 데이터가 없다는 점도 아쉽습니다. 서울시 식품위생업소 오픈API는 25개 자치구가 서버를 두고 각각 제공합니다. 다만 출처는 동일합니다. '새올행정정보시스템'에 정리된 식품위생업소 현황을 각 자치구가 나눠서 제공합니다.

[#서울맵]은 주로 서울 전체 식품위생업소의 업종별 트렌드를 봅니다. 서울시 전체 현황을 보고 싶다면 같은 작업을 25번 반복해야만 합니다. 25개 자치구 오픈API 서버에 각각 요청해 받은 데이터를 취합하는 과정이 필요하죠. 필터도 없고, 데이터도 분산돼 있어 원하는 결과를 얻는 데 25배 많은 시간이 걸리는 셈입니다.

그래서 마지막 문제가 발생합니다. 데이터 분석으로 이상 현상을 발견해도 취재할 곳이 없습니다. 지난 6일 보도한 [#서울빵집맵] 분석 결과 서울에서 개인 빵집이 2017년 한 해에만 545곳 사라졌습니다. 25개 구별 취합한 데이터를 뉴스래빗이 서울시 통합데이터로 추출한 결과입니다.

서울시 전체 데이터의 25분의 1씩만 관리하는 각 구 담당자가 전체 결과를 알 리가 없습니다. 통합 데이터 결과를 상급 서울시청 부서에 물어봐도 담당자는 이 사실을 전혀 알지 못합니다. 구 별 데이터는 있지만, 서울시가 이를 통합 관리하지는 않기 때문입니다. 뉴스래빗 취재 결과 서울시는 통일된 양식으로 25개 구 별 오픈API 구축까지는 했습니다.

하지만 서울시 소상공인지원과는 산하기관이 따로 현황을 취합하면, 이를 1년에 한 번씩 보고받을 뿐이었습니다. 결국 서울시 소상공인지원과의 최신 데이터는 올해 현재 데이터가 아니라 지난해 1번 통합 보고된 데이터일 수 밖에 없는거죠.

#3. '콘트롤 타워'가 없다
서울시 공공데이터의 모범이 되려면
오픈API는 민간 사용성과 접근성을 높이기 위해 도입됐습니다. 그래서 사용성와 접근성을 꾸준히 개선하는게 중요합니다.

지금처럼 서울시 통합 데이터가 필요한 25개 구별 오픈API를 일일히 수집해, 필터값을 따로 둬서 정제해야한다면 사용성이 많이 떨어지는 셈입니다. 이 같은 고된 작업으로 시민들이 새로운 문제점을 발견했다고 해도, 서울시나 해당 구청, 그 어떤 공무원에게 정확한 이유나 해명을 들을 수 없습니다.

서울시에 제안합니다. 서울시 25개 구 전체 데이터를 통합적, 주기적으로 관리·관찰할 콘트롤 타워가 필요합니다.

공공데이터는 시민에게 매우 중요합니다. 서울시 식품위생업소 데이터는 특히 커피, 치킨, 피자, 빵집 등 대표적 자영업 및 소상공인의 흥망성쇄를 설명해줄 수 있는 소중한 데이터입니다. 지금처럼 서울시에 콘트롤 타워 없이, 책임 소재를 각 자치구에 25등분한 채 방치할만큼 가치없는 데이터가 아닙니다.

뉴스래빗이 국내 최초로 제작한 '[#서울커피맵 15년史] 커피공화국‥카페 점 찍으면 서울지도가 뜬다' 편의 부제는 '카페 창업 전 꼭 봐야할 데이터저널리즘'입니다. 카페 창업을 꿈꾸는 많은 분들에게 객관적이고, 투명한 서울 카페시장 정보를 제공하는데 더 의미를 뒀습니다.
카페 창업을 고민하는 분들께 드리는 6가지 메시지를 도출한 것도 그 이유입니다. 데이터저널리즘은 단순 시각화나 현란한 인터랙티브 구현을 위한 콘텐츠가 아니라고 뉴스래빗은 생각합니다. 핵심은 데이터 수집 및 분석으로 독자에게 오롯한 메시지를 전달하는 겁니다.

소상공인이 유난히 어려웠던 2017년입니다. 대왕카스텔라 줄폐업 사태, 미스터피자 갑질 사태, 파리바게뜨 제빵기사 직고용 이슈 등 여러 모로 다사다난했죠. 뉴스래빗 [#서울맵] 시리즈는 식품위생업소 데이터를 활용해 소상공인에게 불어닥친 고비를 객관적으로 증명했습니다.

서울시는 열린데이터 광장과 오픈API 도입으로 다른 지자체보다 공공데이터 접근성을 높이는데 앞장 서 왔습니다. 이 오픈API가 더 잘 구축된다면, 서울시 통합 데이터를 최신자로 관리할 수 있다면 시민이나 소상공인이 보다 빨리 발견하고, 대비할 수 있습니다. 이 같은 통합 데이터를 관리할 콘트롤 타워가 있다면 데이터를 지속 관찰할 수 있고, 서울시가 먼저 변화를 인지할 수 있습니다.

뉴스래빗이 서울시에 데이터 서비스의 '디테일(detail)'을 제안드리는 이유입니다. !.!
# 데이터 정책제안 ? 질 좋은 데이터저널리즘 콘텐츠는 양질의 데이터를 확보할 때 비로소 완성됩니다. 뉴스래빗이 공공데이터 수집 및 정제, 분석 등 과정에서 겪은 문제점이나 애로사항을 바탕으로 데이터 관련 정책을 정부 및 지자체, 공기업 등 공공부문에 제안합니다.

책임= 김민성, 연구= 강종구 한경닷컴 기자 jonggu@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com