Commons

지저분한 데이터와의 전쟁

[김한별 기고] 중앙일보 디지털콘텐트랩의 고위공직자 재산 분석 분투기

E Editorial Team 2018년 04월 18일

버락 오바마 대통령 시절인 2012년 9월. 미국 백악관은 공공·민간부문의 혁신가들을 초청해 ‘데이터 축제(Datapalooza)’를 열었다. 공공안전 강화를 위해 정부 데이터의 개방 폭을 넓히고, 이를 바탕으로 창조적인 제품·서비스·어플리케이션 개발을 장려하기 위해 마련된 행사였다.

이 축제에 초대 받은 사람 가운데는 뉴욕타임스의 ‘개발자 애드버킷’ 크리스 우(Chrys Wu)도 있었다. 그녀는 이 자리에서 데이터저널리즘에 대해 연설하며 이렇게 말했다.

“데이터 접근성(access to data)은 중요하다. 왜냐하면 우리가 가장 정보가 필요할 때 정보를 얻을 수 있게 해주기 때문이다. (중략) 그런데 만약 데이터가 보기 쉬운 전자 포맷이 아니라면 일이 힘들어 진다. 단지 종이 문서 얘기만 하는 게 아니다. 저널리즘에서는 종종 ‘나쁜(bad) 데이터’ 혹은 ‘지저분한(messy) 데이터’에 대해 얘기한다. 데이터를 구조화하는 소프트웨어로 쉽게 불러올 수 없는 데이터가 그렇다. 예를 들면 PDF.”

PDF(Portable Document Format)는 미국 어도비사가 1992년 개발한 국제 표준 문서 양식이다. 윈도PC나 맥 등 어떤 컴퓨터에서 보든, 다 같은 모양을 유지하는 게 특징이다. 작성된 문서를 수정할 수 없어 보안성이 높은 것도 장점으로 꼽힌다.

하지만 이는 ‘공급자 관점’에서 그렇다는 거다. 문서 데이터를 활용하려는 ‘사용자 관점’에서 보면 정반대다. 데이터 분석의 필수 도구인 스프레드시트로 읽을 수 없기 때문이다. “데이터의 구조는 그것이 궁극적으로 나타내고자 하는 방법이 아니라 담고 있는 정보와 관련 있다. (중략) PDF는 당신의 프린터에 직접 말을 거는 언어다. 그것은 문자보다도 페이지에 들어 있는 선과 점의 위치에 보다 관심을 가지고 있다.” (조너선 그레이 등, <데이터저널리즘>)

물론 PDF 데이터를 활용할 방법이 전혀 없는 건 아니다. 어도비사의 유료 프로그램(아크로뱃 프로페셔널)을 써서 HTML 등의 포맷으로 변환하면, 문자를 추출할 수 있고 스프레드시트에서 불러올 수 있다. 하지만 그 데이터들은 구조화가 안 돼 있어, 하나하나 다시 정리해주지 않으면 분석할 수가 없다. 크리스 우가 ‘나쁜 데이터’ 혹은 ‘지저분한 데이터’의 대표로 PDF를 꼽은 건 그 때문이다.

2249명, 4054장, 4만2447행의 PDF 데이터

지난달 29일 고위공직자 재산 내역이 공개됐다. 정부·대법원·중앙선거관리위원회는 전자 관보, 국회와 헌법재판소는 각자의 전자 공보에 자료를 올렸다.

중앙일보 디지털콘텐트Lab은 당일 여러 기관이 제각각 공개한 데이터를 모아 한 눈에 볼 수 있게 시각화했다. 이어 어느 고위공직자가 어떤 재산을 얼마나 갖고 있는지, 재산 형성 과정에 이상한 점은 없는지 꼼꼼히 들여다봤다.

[공직자 재산분석] ① 1등 4435억, 꼴찌 빚 19억…공직자 2249명 재산 줄세워보니
[공직자 재산분석] ② 주식 1인당 15억원, 청와대는 팔고 국회는 버티고
[공직자 재산분석] ③ 벤츠ㆍ재규어...공직자가 사랑하는 차는?
[공직자 재산분석] ④ 빚 193억 안고 1년새 재산 35억 늘린 고위공직자는?
[공직자 재산분석] ⑤ 5000만원 셋집살이 군수님, 서울에선 200억원 건물주
[공직자 재산분석] ⑥ 아파트 분양권 ‘득템’ 1위는 진영 의원

하지만 과정은 결코 순탄치 않았다. 데이터가 모두 PDF였기 때문이다. 이번에 공개된 데이터는 총 4054장(정부 2828장, 국회 751장, 대법원 389장, 선관위 61장, 헌법재판소 25장) 분량이다. 스프레드시트 표로 환산하면 세로 총 4만2447 행(헤더 제외)에 가로 총 15개 칼럼(자체 정제한 컬럼 제외)이었다.

이런 방대한 데이터를 PDF로 공개한 탓에, 파일을 하나씩 스프레드시트가 읽을 수 있는 포맷으로 바꾸고 ‘분석 가능한 형태’로 구조화하는데 상당히 애를 먹었다. 일괄 작업을 위해 짠 R 코드가 200줄 가까이 됐다. 그나마 지난해에 같은 작업을 해본 경험이 있어서, 공수(工數)를 줄였는데도 그랬다. 애초 각 기관이 스프레드시트 포맷(CSV)으로 테이터를 공개했다면, 하지 않았어도 될 ‘생고생’이었다.

image

표가 옆으로 삐딱하게 누운 ‘그림 PDF’도

고위 공직자 재산내역보다 더 ‘지저분한’ PDF 데이터도 있다. 지난해 대통령 선거를 앞두고 각 후보의 정치자금 사용 내역을 확인하려 선거관리위원회에 정보 공개를 청구했다. 공공기관의 정보공개에 관한 법률(약칭 정보공개법)에 따른 절차를 다 밟은 뒤 회신을 기다렸다.

한데 선관위가 보내준 데이터는 모두 종이 서류를 스캔한 PDF였다. 개중에는 스캔할 때 서류가 비뚤어져, 표가 옆으로 삐딱하게 누운 것도 있었다. 이런 PDF는 말만 문서지, 사실상 ‘그림’이다. 아크로뱃의 광학문자인식(OCR)으로 숫자는 어느 정도 추출할 수 있지만, 문자는 인식률이 떨어진다. 스캔 과정에서 표가 비뚤어진 문서는 오류가 훨씬 심하다. 때문에 이런 ‘그림 PDF’ 데이터를 분석하려면 일일이 수작업을 해 데이터를 다시 구축해야 한다.

‘원본 전자문서가 있는데, 출력해 종이 서류로 보관한다’ → ‘정보 공개를 청구하면 종이 서류를 스캔해 사본 전자문서(PDF)를 만든다’ → ‘사본 전자문서를 받은 사람을 하나하나 수작업을 해 또 다른 전자 문서(CSV)를 만든다’. 믿기 힘든 ‘비효율의 극치’지만, 엄연한 현실이다.

아파트(전세)임차권? 아파트 (전세)임차권?

코드를 짜 일괄 변환을 했든, 수작업으로 일일이 재입력을 했든, 스프레드시트로 PDF 데이터를 읽는데 성공했다고 치자. 그럼 쉽게 분석이 가능할까.

이번에 공개된 고위공직자 재산내역 가운데 ‘아파트 전세 임차권’을 예로 들어보자. 이걸 어떤 사람은 ‘아파트(전세)임차권’, 다른 사람은 ‘아파트 (전세)임차권’, 또 다른 사람은 ‘아파트(전세) 임차권’으로 썼다. 금과 은을 ‘금 및 은’이라고 입력한 사람이 있는가 하면, ‘금및은’이라고 쓴 사람도 있었다. 사람이야 각각이 다 같은 의미란 걸 알지만 컴퓨터는 아니다. 실제 내용이 같아도 표현 방식이 다르면 다 다르게 인식한다. 때문에 이런 ‘내맘대로 표기’를 하나하나 잡아주지 않으면 분석 결과가 왜곡된다.

이런 데이터 정제 자체가 아예 불가능한 경우도 있다. 가령 고위 공직자 136명은 이번에 자신 혹은 가족 소유 차값을 100만원 미만이라고 신고했다. 2001년식 체어맨(3199 cc)이 1000원(김진영 서울시의원), 2015년식 K3(1591 cc)가 8만원(유찬종 서울시의원, 모친 소유)이라고 했다. BMW 미니쿠퍼의 가격을 8만9000원이라고 신고한 공직자도 있었다.

모두 진위가 의심스럽지만 당사자 임의 신고 방식이라, 분석하는 사람이 바로 잡을 수도 없고, 바로잡아서도 안 된다. PDF의 경우처럼, 애초 각 기관이 다른 선택(명확한 입력 가이드와 표준화된 입력 템플릿 제공)을 했다면, 피할 수 있는 데이터 왜곡들이다.

‘공개했다’고 생색만 내는 공공데이터 공개

고위 공직자의 재산 내역을 공개하는 목적은 “공직자의 부정한 재산 증식을 방지하고, 공무 집행의 공정성을 확보하는 등 공익과 사익의 이해충돌을 방지”하는 거다. 쉽게 말해 나랏일 한다며 부정축재를 하지는 않는지, 자기 이익을 앞세우지는 않는지, 국민이 감시할 수 있게 하자는 것이다.

정보공개법을 만든 이유는 “국민의 알권리를 보장하고 국정(國政)에 대한 국민의 참여와 국정 운영의 투명성을 확보”하기 위해서다. 하지만 앞서 본 것처럼 데이터를 엉성하게 구축하고 그나마 접근이 힘든 PDF 포맷으로 공개한다면, 아무런 의미가 없다. 아무리 공공 데이터를 많이 공개한다 한들 국민이 알아볼 방법이 없다. 고위 공직자의 재산내역을 매년 공개한다한들 제대로 된 감시가 불가능하다. 공공 데이터 공개의 목적이 “우리는 공개했다”고 생색만 내는 게 아니라면, 이제 이런 공개 방식은 지양해야 한다.

크리스 우는 2012년 백악관 연설을 이렇게 마무리했다:

“데이터가 더 근본적이고, 더 구조화돼 있고, 더 쉽게 접근할 수 있을수록, 우리는 우리의 세계, 우리의 국가, 우리의 공동체 그리고 우리 스스로에게 영향을 미치는 사건들을 좀 더 잘 이해할 수 있다.”


필자 김한별은 중앙일보 디지털콘텐츠Lab장으로 '노트북을 열며'라는칼럼을 연재하고 있다. 이 글은 중앙일보 2018년 4월 6일자에 실린 필자의 칼럼, '[노트북을 열며] 데이터가 서 말이라도 꿰어야 보배다'를 고쳐 쓴 것이다.

cover