从大数据危机到全数据革命

从大数据危机到全数据革命

2014年3月,《科学》杂志在“政策论坛”栏目发表了Laser等人的一篇题为《谷歌流感寓言:大数据分析陷阱》的论文,引起了人们对大数据的警惕。论文作者援引2013年2月《自然》杂志发表的一篇论文所提供的数据指出,谷歌所预测的有关流感类疾病的就医比例,是美国疾病防控中心所获得的数据的两倍多。前者的结论基于与流感相关的大数据搜索得出,而后者的数据依据对全美各个实验室的流感监控报告得出。

谷歌流感趋势预测失真的事实让学者们开始思考这样一个问题:鉴于这是对大数据的补充性使用,我们到底可以从这个预测错误中得到什么教训?Laser等人得出的结论是:尽管搜索或者社会媒体等提供的数据可以被用于预测,但是,大数据远未到完全取代传统方法、假设或者理论的时候。

“不可重复性”危机

Laser等人认为,造成谷歌流感趋势预测失真的两个重要因素是数据自大(data hubris)和搜索运算动态性(algorithm dynamics)。数据自大是指:大数据不仅仅是补充性的,而且可以完全替代传统的数据采集和分析方法。搜索运算动态性是指:数据运营商为支持其商业模式、改善其服务质量、适应用户行为的改变将对搜索运算方法产生各种影响。以谷歌流感趋势预测为例,因其致力于不断地测试和改善搜索体验,故搜索运算方法一直在变,而这不仅是谷歌众多工程师反复决策的结果,同时也是其分布在世界各地的数以亿计的客户的搜索行为所致,并最终影响其预测结果。每一次数据运算收集和运算方式的改变,都在影响数据生成和收集的连贯性。另外,一些有影响力的搜索主体,还会试图通过操控数据生成过程的方式来达到自己获取经济、政治或者社会收益的目的。如此,数据生成和收集之间将出现断裂。

搜索运算动态性因此可能导致大数据研究的“不可重复性”危机。可重复性是指科学研究被重复实施时得到的结论与原研究结论之间的一致性程度,它是科学与非科学的分界线。目前,几乎所有的大数据研究都面临“不可重复性”危机。数据搜索方式的频繁改变,使人们无法获取连贯的大数据。这使其研究不可被证伪,因此有效性大打折扣。

大数据的“不完全代表性”

大数据所面临的另外一个挑战是,其本质上具有“不完全代表性”。社会各界对于“大数据”的一个较为广泛的看法是:数据量越大越好。但这并非绝对。事实上,大数据的价值在很大程度上取决于其连贯性与代表性。

大数据概念的提出,使得所有依靠传统方式收集到的数据变成了“小数据”。但受制于数据生成、收集、遴选和加工等因素的局限性,所有数据本质上都受到“不完全代表性”的困扰。作为“小数据”的范例样本,语料库的“不完全代表性”屡屡受到学术界诟病。语料的收集实际上就是对其的有原则选择,而选择总是意味着丧失一些重要信息。如此一来,语料库总是有局限性。

必须指出的是,大数据本质上也是“不完全代表性”的。这主要体现在以下四个方面。

其一,大数据在很大程度上是外部事件驱动以及数据服务商商业模式主导的结果。大数据的代表性与用户搜索行为的代表性密切相关。但是,现在用户的搜索行为在很多时候都受到外部事件驱动。Laser等人观察到,不仅如此,服务商还会根据各自的商业模式有意识地对用户的搜索行为进行诱导。

其二,大数据有可能受到数据运营商的操纵。在大数据产业链上,一个公开的秘密是,数据运营商时刻都在利用各种软件监控网民的搜索行为和习惯。这种监控越成功,用户的搜索行为越受到操控,最终得到的大数据也就越缺乏代表性。

其三,大数据在某些情况下可能只是诸多无效信息的无度膨胀。大数据所收集到的海量信息,很可能都是人类各种转瞬即逝行为的碎片或痕迹,而后者只是各种外部因素和内部因素,如情绪、欲望、从众效应等合力作用的结果,在很大程度上可能与用户的基本行为模式或者价值体系背离。

其四,真正有价值的数据是认知无意识数据,但限于目前的大数据挖掘技术,这部分数据仍不可能被挖掘出来。甚至在将来的很长一段时间内,我们也还没有能力挖掘人类认知无意识活动的技术性留痕。

责任编辑:佘小莉校对:郭浩最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端