美国丹佛电视台运用数据做新闻

美国丹佛电视台运用数据做新闻

作者:美国丹佛电视台(KUSA)新闻调查部数据记者,波士顿大学商业新闻硕士 王小丹  2015-07-24 16:48  新传播    【字号:  

    美国丹佛电视台(KUSA)调查新闻部的数据信息来源主要有三种:政府公开的信息、公司内部的数据库和与当地其他新闻媒体合作。通过扩充数据库资源,加强了记者与数据分析人员之间的联系。但传统媒体在大多数情况下,只是将数据作为信息传递给观众,或是作为证据用来鉴别采访对象所言之词是否属实,却忽略了这些数据本身的故事性。

 

【关键词】美国媒体 丹佛电视台 数据新闻

 

隶属于美国国家广播公司(National Broadcasting Company简称NBC)旗下的美国丹佛电视台(KUSA)是丹佛最大的电视台,共有60多名新闻人员,调查新闻部有6名成员。此部门一直专注于做深入性调查报道,内容关乎科罗拉多州500万居民的生活,对当地政府起到了很好的监督作用,也因此多次荣获国家级电视新闻奖。

 

一、挖掘数据本身的故事性

 

美国丹佛电视台(KUSA)调查新闻部的数据信息来源主要有三种:政府公开的信息资料、公司内部的数据库和与当地其他新闻媒体合作。

KUSA的母公司Gannett在全国有包括《今日美国》在内的50多家电视台和报社,这种覆盖全国的新闻网络为数据共享提供了平台。此外,KUSA与当地报社和网络媒体也建立了合作关系,扩充了数据库资源,加强了记者与数据分析人员之间的联系。但传统媒体在大多数情况下,只是将数据作为信息传递给观众,或是作为证据用来鉴别采访对象所言之词是否属实,却忽略了这些数据本身的故事性。

举个例子,我们听说科罗拉多州一个名为Morrison的小镇2013年的政府收入中,最主要的来源是违规司机向交通部门所交纳的罚款。于是便向当地交通部门申请索要了2013年所有交通违规记录。调查中,我们发现这个人口只有400多人的小镇一年内开出的罚单竟然多达13000多张,这相当于当地警察每天平均要开至少35张罚单。得到这个结果,故事基本有了,可要作为调查性新闻报道的话,它仍旧缺少细节。比如Morrison是否是一个旅游小镇?它平时的交通状况如何?当地有几名交警?他们平时都在哪里罚款?这些问题如果得不到解答,我们就不知道这个小镇的警察局是否存在恶意罚款的行为。

在数据分析进入编辑室以前,大部分调查记者在了解背景情况后,会实地走访那些他们认为“有料可挖”的地方,他们相信眼见为实。而面对手里成千上万份的资料,记者很多时候却无从下手。我的同事把这13000多份罚款的电子记录表(PDF)交给我时,距离最初拿到它的时间已经过去了大半年。

面对这份13000多张罚款的电子记录表(PDF),我该如何下手呢?

首先,拿到数据后,我做的是将电子记录表(PDF)文件转化成可进行分析运算的Excel表格。

这里顺便介绍几个常用的格式转化工具:

Cometdocs: 可转化扫描和多页文件,支持多种格式转化。美国调查记者编辑协会(Investigative Reporters and Editors简称IRE)协会会员可向cometdocs@ire.org 申请免费账号。

Tabula:免费,为新闻记者量身打造的一款工具。可直接手动抓取文件中的图表进行格式转化。缺点是不能同时转化多页和扫描文件。

Zamzar:免费,支持多种格式转化。缺点同上。

其次,格式转化后通常最令人头痛的部分是处理“肮脏”的数据。

这是由于电脑不能很好地识别PDF的文件内容,导致它生成的Excel表格中有不少错误信息。对这些信息进行整理时,如果数据比较少,可对比原文件进行手动调整,但这是种耗时耗力的方法。大部分情况下,我会使用Excel 中的运算功能。比如:格式转化中最常见的问题之一是因为两个行列(Column)距离太近,电脑无法识别中间的空当,以至表格中有不少混杂的内容。这时可以尝试用Excel中Data版面下的Text to Columns,按照空格、符号,或是根据内容长度进行行列分离。如果是文字和数字混杂,则可以用Flash Fill功能。另外一个常见的问题是错行和错别字,这种情况通常出现在扫描文件的转换过程中。对于错别字,我们可以使用Find and Replace进行错误甄别和内容替换。对于错行,我的建议是先从凌乱的表格中寻找规律,将每个行列按顺序整理好,再将多个行列排列整齐。关于Excel的使用,遇到具体问题不会操作时上网搜索一下,通常会有答案。处理完格式转化的错误后,有时我还会用Google Refine进行数据整理。我在工作中最常接触的数据是来自地方政府的各类记录和报告。这些大部分是公务员、警察手动输入电脑的信息,其中难免会有大小写不统一、错别字、多余的空格等问题,Google Refine可以很好地解决这些问题。

最后就是分析数据了。

我最常用的是Excel自带的PivotTable,它可以很快梳理出每个项目的数量、总和、平均数和方差等信息,且十分容易排列。PivotTable还可以根据你选择的项目进行图表绘制,更加直观地呈现结果。除此外,当我从不同部门拿到相似的数据时,我会用Access进行表格间的比对,找出其中共同的部分。

回到之前的罚款案例中。在数据分析时,我发现每条罚款记录都注明了肇事日期、地点和原因等。这意味着我们至少可以从这组数据中得出三个结论:最容易被罚款的地点;罚款最常见的原因;一年当中罚单开得最多的一天。

随着答案浮出水面,我们也掌握了更多信息,比如罚款最多的那天镇里正好举行一场大型户外演唱会,再比如最常见的罚款原因是在镇子外头的高速公路上超速行驶。那是一条沿山路,而罚款最多的地方,恰好是一个减速带。很多车子因为来不及刹车,被停在路边的警车抓了个正着。我们调查发现,这个减速带是最近几年新修的,而它的出现无疑给当地交通管理部门带来了良好的“经济效益”。是数据分析让这个原本被人遗忘的故事重新变得有意思起来。

 

二、结合其他信息,让交互图表多元化

 

用Tableau这样的软件做可视化图表方便且容易,但它的缺点是不够灵活,比如你只能用它自带的地图以及表格类型,而无法根据自己的需要进行个性化设计。自从Tableau 8.0加入了URL Action功能后,这方面便有了很大提高。它允许用户在图表中嵌入其他网站信息(新闻、视频、地图等),并和图表本身进行互动式操作。比如:

图为丹佛市2014年的交通肇事逃逸信息表。
 

上图中的数据是通过向当地交通管理局申请信息公开(FOIA)拿到的。蓝色的点在上方地图上标注了肇事发生的地点。下方的Google街景地图则是我通过URL Action嵌入Tableau中的,为了方便用户了解交通事故具体发生的地方。

 

三、避免脱离现实的数据新闻

 

作为外籍记者,除了语言和人脉以外,最缺乏的是对于当地文化的了解。举个例子,我们得到过一份科罗拉多州警察装备清单,里面详细记录了给每个县警察局所配发的武器,从一粒子弹,到一辆装甲车。在数据分析的过程中,我发现有一个县所拥有的重型武器数量远多于其他地区,而它的人口比例却又出奇的低。总结中,我费了不少笔墨去描写这个县如何武装化,而编辑在审稿时却告诉我遗漏了一个重要信息:原来这个人烟稀少的地区有着号称全美最严格的监狱系统,里面关押着几名美国历史上臭名昭著的杀人犯和恐怖分子。如此一来,武器的数量也得到了合理解释。而我在不了解背景的情况下报道的新闻,多少显得有些扭曲事实。从那之后,每当我在调查中发现一些不合常理的现象时,都会先上网查一查相关的背景资料,或是向同事询问情况。这样不仅使得新闻报道更加准确、公正,也加深了对于当地情况的了解。

编辑:郑晓鹏

打印本页】【关闭窗口】【复制地址

往期回顾

© COPYRIGHT 2014 ALL RIGHTS RESERVED. 深圳报业集团版权所有,未经书面授权禁止使用。