Keynotes

데이터 저널리즘, 오픈 데이터를 넘어 코드 공개로

[권혜진] 과학계와 마찬가지로 저널리즘에서도 이제는 단순 데이터만이 아닌 재현 가능성이 중요해졌다.

E Editorial Team 2018년 08월 22일

올해 6월 싱가포르에서 열린 북미정상회담을 앞두고, ‘김정은 북한 국무위원장이 어떤 비행기를 탈까’에 세계의 관심이 쏠렸다. 이는 물론 철저히 비밀에 붙여졌다. 하지만, 한 사이트가 트위터를 통해 탑승 비행기와 항공 경로를 공개했다. '플라이트레이더24'가 바로 그 것이다.

플라이트레이더24는 항공기의 위치를 실시간으로 추적하는 사이트로, 데이터저널리즘의 소스로 종종 등장한다. 특히 버즈피드 뉴스는 이를 활용해 멋진 데이터 저널리즘 탐사보도를 선보인 바 있다.

버즈피드 뉴스가 내딛은 의미있는 한걸음

버즈피드 뉴스는 ‘하늘의 스파이(Spies in the Skies)’라는 기사를 위해 플라이트레이더24에서 2015년 8월 중순부터 12월 말까지의 항공기 데이터를 수집했다. 이는 캘리포니아주 샌버나디노에서 총기 난사 사건이 발생한 시기였다.

과학 전문 기자인 피터 알두스Peter Aldhous 기자는 이 데이터에서 미국 FBI와 국토 안보부 (DHS) 소속 감시 항공기 약 200대를 식별해 냈다. 샌버나디노에서 발생한 총기 난사 사건에 그 감시 항공기들이 어떻게 대응했는지, 어떤 문제점이 있는지 분석했다.

image

후속 보도에서는 기계학습(machine learning)을 활용했다. 이를 통해 연방수사국(FBI)과 국토안보부(DHS) 소속 항공기의 비행 패턴과 유사한, 숨겨진 스파이 항공기들을 찾아낸 것이다. 버즈피드 뉴스는 이 보도로 2017년 데이터 저널리즘 어워드 중 ‘올해의 시각화 상’과 2018년 데이터 저널리즘 어워드‘혁신상’을 잇따라 수상했다.

이 보도에서 필자가 특히 인상 깊게 본 건 재현가능성(reproducibility)을 위한 노력이었다. 다른 사람들이 동일한 분석 결과를 낼 수 있도록 원시 데이터 뿐만 아니라, 분석 방법과 R 코드를 공개한 것이다. 이것은 다시 말하면, 나 같은 독자나 경쟁사 기자가 데이터와 코드를 가져와서 보도를 검증하고 노하우를 배울 수 있다는 뜻이다.

상업 미디어가 힘들게 쌓은 노하우를 코드까지 공개한다고? 궁금하면 버즈피드 뉴스의 Github 저장소를 확인해 보자.

image

데이터저널리즘, 재현성의 확산

학문 분야에선 연구의 재현가능성이 연구 결과의 진실성을 판단하는 중요한 잣대가 된다. 2014년 네이처와 사이언스 등 과학 저널들은 논문의 연구 진실성을 강화하기 위해 ‘논문 심사와 출판의 원칙과 지침’을 마련한 바 있다. (참고)

최근 데이터저널리즘 분야에서도 재현가능성을 중시하는 흐름이 확산되고 있다. 데이터저널리즘 전문 미디어인 파이브써티에잇(FiveThirtyEight) 은 올해 데이터 섹션을 만들어 기사 이면의 데이터와 코드를 공유하기 시작했다.

image

스위스 공영방송 SRF 역시 SRF Data를 통해 데이터와 코드를 공개한다. SRF는 데이터저널리즘의 결과물 뿐만 아니라, 투명하고 재현가능한 데이터 전처리와 분석 과정 공개가 중요하다고 주장한다.

image

재현가능성을 강조하는 흐름은 AP뉴스의 스타일북에서도 엿볼 수 있다.

AP뉴스는 2017년판 스타일북에 데이터저널리즘 관련 내용을 처음으로 추가했다. AP의 데이터저널리즘 권장 사항 중엔 다음과 같은 내용이 있다: “다른 사람이 당신의 분석 결과를 재현할 수 있는지 확인하라. 가능하다면 에디터나 다른 기자가 출판 전에 분석 결과를 재현하여 모든 결과를 확인하도록 노력해야 한다."

국민의 세금이 지원하는 데이터 저널리즘은 오픈 데이터로

데이터 저널리즘 프로젝트가 재현 가능하게 데이터와 코드를 공개함으로써 얻을 수 있는 장점은 많다. 보도의 투명성을 높이고 임팩트를 확대할 수 있기 때문이다. 데이터와 코드의 공개는 무엇보다 내부에서 결과물을 검증하고 지식을 관리하는데 필요한 일이다.

하지만 아쉽게도 국내 언론이 보도에 사용한 데이터와 분석 방법을 타인이 재현할 수 있도록 공개하는 일은 매우 드물다. 담당자가 공개하고 싶어도 데스크의 허락을 얻기 쉽지 않을 것이다.

언론 분야 오픈 데이터의 선순환을 위해 이런 방법은 어떨까. 국민의 세금이 지원되는 데이터 저널리즘 프로젝트의 경우 데이터와 분석 방법, 코드를 모두 공개하도록 의무화 하는 것이다. 예를 들면 한국언론진흥재단의 지원 사업을 생각해 볼 수 있다. 그리고 더 나아가 공영 방송과 비영리 매체가 뒤를 이어 이런 흐름을 언론계 전체에 확산시킨다면 데이터저널리즘 생태계가 보다 윤택해지지 않을까 기대해 본다.

관련 사이트

Flightradar24.com
BuzzFeedNews의 Github
Fivethirtyeight Data
SRF Data


필자 권혜진은 동아일보 컴퓨터활용보도(computer-asssisted reporting) 담당 기자를 거쳐 뉴스타파 데이터팀 리서치 디렉터로 일했다. 현재 건국대 언론홍보대학원에서 초빙교수를 맡고 있고, 사단법인 코드의 이사, 비영리 커뮤니티인 데이터저널리즘 코리아의 리더로 활동한다. hjkwon@djlab.kr


cover