美国记者为什么要学习电脑编程

作者:美国丹佛电视台(KUSA)新闻调查部数据记者,波士顿大学商业与经济新闻硕士 王小丹  2016-06-21 19:19  新传播    【字号:  

  越来越多的新闻院校开始加入数据与可视化方面的课程。想要成为一名数据记者,究竟需要掌握哪些技能?本文以美国哥伦比大学新闻学院为例,阐述了数据项目的设置初衷和涵盖内容。并引用真实的新闻案例,分析媒体如何运用统计模型和编程帮助记者更加高效地完成数据分析,找出新闻的核心与重点。

 

【关键词】哥伦比亚大学 数据记者 电脑编程

 

2015年5月到12月间,我参加了哥伦比亚大学新闻学院下设的Lede项目。这是一个专门培训数据记者的项目,课程涵盖了统计、高等数学、计算机算法、数据库应用以及可视化制作等方面的内容。在这半年多的时间里,我接触到超过20种软件及编程语言(见下图),以供处理不同类型的数据。

 

../Pictures/%5BPO2123490-.png 

 

一、背景环境及课程开设初衷

 

作为美国历史最悠久的新闻学院之一,哥伦比亚大学始终走在新闻教育的前沿,不仅为全球新闻行业培养了诸多优秀的记者和编辑,同时也在不断探索媒体行业的走向和发展。数据新闻起源于上世纪六十年代末,一个叫菲利普·梅耶(Philip Meyer)的记者他所供职的《底特律自由报》使用当时的大型计算机(mainframe computer)整理和收集政府的公开数据,并尝试在报道中加入数据调查结果。后来,做了教授的梅耶写了本叫《精准新闻》(Precision Journalism)的书,详细记述了自己对数据的理解和经验,这本书已成为数据与调查新闻领域的经典著作。到了八十年代末,随着办公电脑的普及,数据新闻扮演的角色也越来越重要,而通过电脑协助完成的报道也开始斩获像普利策这样重量级的奖项。越来越多的从业者开始意识到数据新闻的价值,而全国计算机辅助报道协会(NICAR)也于1994年在密苏里新闻学院正式建立,给业内人士和新闻学院学生提供了更多交流和学习的机会。到了本世纪初,随着社交媒体和手机应用的迅速发展,传统新闻行业受到严重打击。老牌纸媒亏损停刊的不在少数,一大批记者不得不离开纸媒,去互联网公司寻找机会,网络媒体的地位不断得到提升。这些公司依赖于网站订阅和社交网络的传播,大量的读者是手机与平板用户。此外,它们的另一特点是对于数据与交互可视化的重视。

正是在这样的大环境下,哥伦比亚大学新闻学院的两位教授艾米丽·贝尔(Emily Bell)和马克·汉森(Mark Hansen) 在聊到目前数据新闻的发展和数据记者的短缺时,不谋而合地提出开设数据培训课程的想法,于是便有了Lede项目。

 

二、紧贴行业发展的课程设置

 

1. 交互可视化

虽然学习的内容大多与计算机和编程相关,但Lede的宗旨并不是培养程序员,而是希望学员能够更加准确地分析和运用数据。它的课程分为四个方向:统计学,交互可视化,数据分析和计算机语言。Python,SQL, D3.JS,这些目前在数据新闻界最流行的几种工具对于文科出身的记者来说,可能十分陌生。但实际上,只要掌握一些基本数据结构和编程语法,就可以开始编写简单的程序去整理和分析数据,接下来便是抓取网页信息和制作可视化新闻。

Lede课程总长度为两学期。第一个学期从5月到8月,学习使用编程语言Python进行处理数据,抓取网页,建立模型, 以及简单的机器学习。第二个学期从9月到12月,有了一定编程基础的学员可以根据自己的兴趣在高等数学、数据结构、统计分析、交互可视化制作、大数据挖掘等不同领域选择进修方向。

进修之前,我有一年的数据处理和可视化制作经验,却从未涉及过电脑编程。我大部分情况下都是使用软件,比如Excel和Access,以及可视化工具Tableau,还有各种制作时间轴(Timeline)或是信息图(Infographic)的网站。使用这些资源的好处是上手容易,完成的快。但缺陷是形式比较单一,缺少个性化。上课期间, JavaScript 的一个函式库D3建立动态数据图,令我眼界大开:它设计出的图像简洁、美观,功能丰富,交互性强,很符合媒体的需求。

随着线上读者的不断增加,新闻网站越来越重视在新闻中加入交互与可视化元素。目前被媒体网站广泛使用的开源语言D3.js的开发者Mike Bostock曾是纽约时报的一名图片编辑,他开发的这款工具大大提高了数据图的专业度和灵活性,并且兼容手机浏览器:

以下是几个D3动态图案例:

 

《纽约时报》——通往白宫的512条路

../Desktop/Mike%20Bostock.png

http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html

 

《纽约客》——美国高校篮球队的预算之争

../Desktop/Larry%20Buchanan.png

http://projects.newyorker.com/story/ncaa/

 

《那些孤单的人们》—— Lede项目往届学员作品

../Desktop/lede.png

http://www.iliablinderman.com/connections/

 

更多Lede项目学生作品可访问这里:http://ledeprogram.com/student-work/

更多D3的案例可访问这里:https://github.com/mbostock/d3/wiki/Gallery

 

2.数据分析能力

去年获得普利策调查新闻奖的作品《揭秘联邦医疗保险:数字背后的故事》(Medicare Unmasked: Behind the Numbers)(《华尔街日报》)通过分析超过一百万份医疗账单,公开了联邦医疗保险系统中6000亿美元的走向, 以及这个保险给医院和医生带来的收入变化情况。 (作品地址:http://graphics.wsj.com/medicare-billing/)

专门报道体育和政治新闻的网站538(FiveThirtyEight)以预测比赛和大选结果见长。主编Nate Silver在12年大选期间,利用数据模型近乎完美地预测每一轮的投票结果,并写成文字报道,广受业界好评。自由撰稿人,博客网站“I Quant NYC”的作者Ben Wellington 通过分析纽约市交警一年的罚单记录,发现了纽约最“挣钱”的消防栓一年的“收入”竟多达55000美元,合计33万元人民币。

这些独家新闻的背后,是深度的数据分析和统计知识。现在无论是政府还是企业,数据越来越多地被当做资源利用。作为记者,能够拿到独家数据无疑是如获至宝。但能否用好这些宝贝,还要看记者本身的分析能力。 Excel是一个简单又好用的软件,可以录入数据,整理归类,进行计算(总和、平均数、方差等等),还可以制作简单的数据图表。

但当数据量达到上十万或者百万时,Excel就会开始显得有些力不从心,有时光是打开表格就要处理很久。这样一组结构整齐,数量庞大的数据称为数据库。同属于微软办公软件的Access是一款容易上手的数据库软件, 如果每个Excel 表格是一个子文件,那么 Access就是存储和调用这些表格的工具。使用数据库软件可以方便管理、查询、访问、调取库中的具体信息。没有经过处理的数据被记者当作一手资料使用,找到这样的数据令记者兴奋不已,因为那里可能就有下一条独家新闻。但处理原始数据往往是最消耗时间的,对记者的数据能力也是一个很大的考验。错误的拼写,不连贯的格式,以及中间缺失的信息,这些都是最常见的数据问题。而若想从政府部门获取更加准确和完整的数据,得到的答复往往是滞后的。为了满足新闻的时效性,记者需要学会一些处理“肮脏”数据的技巧:比如在数据库中建立一个“错字表”,将错误的拼写和正确的拼写分别录入两列中,然后通过对比“错字表”和原始数据,找出数据库中所有出现错误的地方,再将它们统一替换为正确的拼写。整个过程一分钟都不需要。而且也便于日后追踪和更新记录。

对于熟悉编程的记者来说,还可以使用数据库语言SQL直接对数据下达各种指令,至于电脑如何实现这个指令,则是不需要用户去考虑的。此外,在处理数据方面,Python和R被数据记者广泛使用。Python是一款多功能的计算机语言,由于其功能全面,语法简单,成为不少编程入门者的首选。不同于软件,编程语言允许用户在高层数据结构上工作,功能也更加强大。比如Python中一款热门的绘图插件Matplotlib,让用户可以直观地看到数据的走势发展或是同类对比,这些通常是记者最感兴趣的地方。

下图为巴西的收入不均等与全球其他主要国家的对比(来源:538 )

 

../Desktop/ozler-feature-brazilincome1.png

 

http://fivethirtyeight.com/features/lessons-from-brazils-war-on-poverty/

 

三、数据分析在实际工作中的运用

 

在课程设计上,美国的新闻学院整体走实用路线,lede项目也不例外。个人作业和小组项目贯穿整个课程。这样的安排不仅让学员有更多机会练手,丰富个人作品集,为毕业后找工作铺路。此外,对于编程新手来说,一个主要障碍是自己写的程序经常出现“bug”,而又不知道问题出在哪儿。 幸运的是网络上关于编程的资源很多,大部分问题在谷歌、百度上搜一下就能找到答案。 对于应用为主的数据记者而言,能够找到解决代码问题的方法,甚至比学习编程本身更有意义,而课堂练习的目的也正在于此。

每学期末,学员都要完成一篇独立的数据新闻报道,题材不限。我的选题是利用自然语言处理,分析微博网友对去年五一期间“成都女司机变道被打”这个热点议题的态度和立场。通过对7000多条微博的分析,我发现在女司机劣迹斑斑的驾驶记录被公开之前, 97%的网友表示了对她的同情和支持,而这一比例在她劣迹斑斑的驾驶记录被曝光后,迅速跌至38.4%。这个语义分析用到了机器学习中两个使用广泛的模型:决策树和朴素贝叶斯。我将自己人工分析的大约1000条微博录入到模型中,而它通过一系列复杂的运算,建立起一个分类器,将剩下的6000条微博按照语义进行分类。概括来说,就是将数据按比例分成培训用和测试用两部分,先人工处理培训用的数据,然后将它们“喂给”你所选择的统计模型,让电脑“学习”你的处理结果,再将测试用的数据尽可能地按照你的逻辑思维去分类。

近年来,科学家不断地在机器学习(machine learning)方面有所突破,人工智能离我们的生活越来越近,而自然语言处理一直是机器学习的一个重要领域。《纽约时报》和英国广播公司(BBC)率先在公司内部建立起新闻实验室,让电脑学习语法结构,自动生成新闻稿件。去年《纽约时报》制作了一个名为“Blossom”的机器人,可以预测新闻在社交媒体上的点击率,从而帮助编辑选择应该发布的内容。截止目前,有不少媒体都开始尝试更加复杂的数据分析和处理。《达拉斯早报》在一篇调查德州学生作弊的新闻中使用统计学中的回归模型分析学生的成绩分布;《洛杉矶时报》利用聚类分析法,计算出每个社区的犯罪情况,并对犯罪率有可能上升的地区做出预报;路透社去年通过一系列复杂的模型分析,调查出美国最高法院的判决结果是由一小群精英律师主导着,这则报道后来被普利策奖提名。(作品地址:http://www.reuters.com/investigates/special-report/scotus/)

 

四、技能固然重要,但内容才是新闻的灵魂

 

Lede课程已经举办了两届,学员来自不同国家,背景多种多样。在我的这些同学中,既有编辑室的主编,也有刚毕业的大学生,既有学新闻出身的,也有学社会学和其他人文学科的。大家参加这个项目的目的各有不同,有些人想集中学习一下数据技巧,然后返回编辑室继续工作;有些人希望通过这个项目申请计算机或是数据科学的研究生。在与同学的交流中,我开始了解数据新闻在其他国家的发展,以及不同国家的记者最关注的话题,这个项目也让我认识了不少同行。

离开学校回到编辑室,我更加意识到,数据技能固然重要,但并非数据新闻的全部。想要做出好故事,依旧不能忽略传统新闻中采访和写作的重要性。数据可以帮助我们找到突破口,可视化可以帮助我们丰富画面,但内容才是新闻的灵魂。因此,在谈论数据新闻时,我们不能只依赖电脑和网络上的信息,而是要继续亲自走访现场,采访专家和线人,调查取证,一遍遍修改稿件,核实内容的准确性,这样才能让报道更加准确、深入、全面,具有影响力。

编辑:郑晓鹏

打印本页】【关闭窗口】【复制地址

往期回顾

© COPYRIGHT 2014 ALL RIGHTS RESERVED. 深圳报业集团版权所有,未经书面授权禁止使用。