[국회데이터랩] 20대 국회 의원 286명 및 직원 37명 재산 내역 공유합니다

6.13 지방선거 및 재보궐 꼭 투표합시다

뉴스래빗 데이터저널리즘 [DJ래빗]
6.13 지방선거 특집⑤ 20대 국회의원 자산왕
뉴스래빗이 데이터저널리즘 [국회데이터랩] 5편
20대 국회의원 재산 총 1조2547억…증권>건물>예금>토지 '재테크'
를 공개했습니다.이 기사의 분석 데이터인 20대 국회 정기재산공개 내역을 여러분께 모두 공유드립니다. 뉴스래빗 독자님 및 시민사회 구성원분들, 변환한 데이터를 이용해 뉴스래빗보다 더 나은 오롯한 메시지를 발견해 보시길 기원합니다. 6.13 지방선거 및 재보궐 꼭 투표합시다 !.!
20대 국회의원 재산 내역: http://bit.ly/국회의원자산왕2018




이렇게 변환했습니다 !.!
국회데이터랩 1편에 사용했던 출석률 데이터는 스크래핑(scraping)을 이용해 수집했습니다. 스크래핑이란 프로그램을 이용해 자동으로 인터넷에 공개된 정보를 수집하는 기법을 말합니다. 2편 법안 데이터는 공공데이터포털에서 제공하는 API(Application Programming Interface)에서 받아왔습니다. API는 개발자 사이의 약속이기 때문에 이를 잘 지키기만 하면 손쉽게 데이터를 분석할 수 있습니다.
스크래핑과 API 방식 모두 정돈된 형식으로 데이터를 수집하는 덕분에 평균을 구하거나 검색을 하는데 어려움이 없었죠. 그런데 3편 재산 데이터는 국회에서 PDF 방식으로 공개합니다. PDF는 사람들이 많이 사용하는 형식이긴 하지만 오로지 읽는 목적에 충실합니다. 평균이나 합계 등 데이터를 분석하기에는 적합하지 않은 형식이죠. 뉴스래빗은 국회의원 재산을 분석하기 위해 우선 PDF 형식의 파일을 tsv(tab-separated value, 컴퓨터 분석에 특화된 파일 형식) 형식으로 변환했습니다. textract, PyPDF2 등 여러가지 툴을 시험해본 결과 tabula-java가 제일 편리했습니다.
한 번 변환을 거친 탓에 데이터가 틀릴 가능성도 대비했습니다. 오류를 없애기 위해 변환한 각 항목 데이터를 모두 더한 뒤 각 자산의 소계와 일치하는지 확인했습니다. 그리고 각 자산의 소계를 모두 더하여 해당 의원의 총계와 일치하는지까지 총 두 번의 검증 과정을 거쳤습니다.
다만 각 항목의 세부적인 내용이 기록된 '소재지 면적 등 권리의 명세', '변동사유' 항목은 텍스트의 양이 많고 방대해 다소 오탈자가 있을 수 있습니다.
오탈자 등이 발견되면 뉴스래빗 danbi@hankyung.com 에 알려주시면 감사하겠습니다. 수정 반영토록 하겠습니다.
[국회데이터랩] 6.13 지방선거가 코앞으로 다가왔습니다. 이제 우린 누굴 뽑아야할까요. 뉴스래빗이 유권자 여러분의 판단을 돕기 위한 국회데이터랩 데이터저널리즘을 선보입니다. 국회의원 활동 관련 다양한 데이터베이스를 실시간으로 수집, 독자 여러분께 제공합니다.
20대 국회의원 재산 총 1조2547억…증권>건물>예금>토지 '재테크'
[단독] 20대 국회 '결석왕' 서청원…톱20 중 17명 자유한국당
20대 국회 '개미와 베짱이'…김무성 등 법안 대표발의 '0건'
# DJ 래빗 ? 뉴스래빗 대표 '데이터 저널리즘(Data Journalism)' 뉴스 콘텐츠입니다. 어렵고 난해한 데이터 저널리즘을 줄임말 'DJ'로 씁니다. 서로 다른 음악을 디제잉(DJing)하듯 도처에 숨은 데이터를 분석하고, 발견한 의미들을 신나게 엮어보려고 합니다. 더 많은 DJ 래빗을 만나보세요 !.!

책임= 김민성, 연구= 박진우 한경닷컴 기자 danbi@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com