“数据治国”的三个关键理念(5)

“数据治国”的三个关键理念(5)

——从互联网思维到未来治理图景

计算思维

“大数据”现象是由于信息技术的进步而产生的,大数据时代就是大计算时代,无处不在的计算标志着一个计算型社会的兴起。因此可以说,没有计算技术的发展,就没有大数据。但是,常常听到有人说“技术不重要”,这种轻视技术的思想对于大数据应用的良性发展只会带来伤害。大数据应用就是一种基于计算机信息技术的解决问题的办法,因此也需要计算思维。

计算思维是运用计算机科学的基础概念进行问题求解、系统设计以及人类行为理解等涵盖计算机科学之广度的一系列思维活动。计算思维,简单地说是指人们利用计算机解决问题的普遍方法。计算思维的提出者周以真(Jeannette M. Wing)教授认为,计算思维同算术能力、语言能力等一样,是每一个现代人需要具备的基本能力。 从计算机解决问题的角度分析,我们认为以下两个方面最为重要:

算法思维:把工作交给机器。大数据应用是一个极为复杂的系统,大数据系统包括数据采集、数据清洗、数据存储、数据传输、数据管理、数据分析、数据挖掘、数据展示等许多环节,其中任何一项工作都是人力所难以胜任的,一定要借助计算机的力量,通过事先编写好的程度自动完成。

我们在日常工作中也常常会做些调查研究、数据统计分析等,都是手工完成的,最多采用一些数据处理的工具,例如excel等。在大数据时代,我们面临的是TB级、PB级的数据,这远超出了人力所能处理的范畴。

算法思维的关键是要回答以下几个问题:我们面对的问题是否可计算?计算复杂度有多大?是否存在在合理的时间和资源条件下可完成计算任务的有效的计算算法?这些问题有些专业,并非管理人员能回答,具体答案可以交给技术人员去完成,但是管理人员在决策时需要考虑到这些问题。

基于大数据的求解问题的算法不能太复杂,需要比较简单才可行。举个智能翻译的例子。(17)传统翻译软件设定了很多语法规则,用这些僵化的规则拆解每个句子,再逐字翻译生成不同的语句。但这往往使翻译出来的语句生硬拗口,甚至错误率很高。谷歌的翻译软件却不是这么做,他们从大量已存的翻译文章中对比,找出最合适的翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,或者质量不高,但由于数据量极大,这些错误可以通过排序被过滤掉,这种方法大大提高了翻译的质量和准确性。也就是说,不精确的大数据用简单算法,比精确的小数据用复杂算法要有效得多!以大数据方式做翻译的另一个好处是,系统会随着数据的积累而不断改善。如果您看到某条译文不太合适,可以点击相关词组查看备选翻译结果。当您点击更好的备选译文时,Google翻译会记下您的反馈,并在日后继续改进。谷歌翻译目前能够支持71种语言的互译,2012年用户的使用次数达到2亿次。

用简单的算法,在大数据上能够创造出复杂的人工智能,使计算机代替人类完成动态监测、语音咨询、作业批改乃至医疗诊断、法律文书处理等专业任务。这种处理不仅是实时的、大批量的,更是科学的、精准的。

美国邮政(USPS)的计算机系统能够自动扫描邮件的相关数据(存放位置、派送路线、重量、体积等信息),通过与数据库中近4千亿条数据的比较,甄别出“邮资欺诈”的邮件。扫描一封邮件只需要50~100毫秒。一旦检测出了“异常”——比如包裹邮资不足或者邮票重复使用等情况,系统就会对信件实施实时拦截,再由分拣人员对其进行特殊处理。有趣的是,该项目竟然由此形成了“威慑效应”。自从2006年开始实施此计划起,“邮资欺诈”行为减少了很多。(18)

把工作交给机器,让机器替代或辅助人工,不仅是科技的未来,更是政务大数据的未来。

平台思维:给工作搭一个舞台。“平台”指计算机硬件或软件的操作环境,泛指进行某项工作所需要的环境或条件,包括技术平台、业务平台、数据平台等。“平台”不是一天就建立起来的,需要巨大的建设投资和长期的运行维护成本。我们的一切工作都需要在这个平台上进行。平台一旦建成,中途也很难更换。因此,平台的规划、技术选择等就成为开展大数据应用的重要课题之一。

由于大数据应用种类非常繁多,特征各不相同,一种普遍被接受的观点是大数据平台应该是因应用而异的。例如,就数据管理而言,传统关系数据库管理系统(DBMS)秉承的“全能型”(one-size-fits-all)理念不再适用于纷繁复杂的现实应用:数据不同,负载不同,应用场景不同等,导致每一类典型应用都需要有相应的数据管理系统。

“平台”的可扩展性也是一个重要的问题。从组织IT架构体系上来看,必须考虑可扩展性的问题:随着使用人数的增多、业务量的增加,系统必须具备能够及时扩展IT系统的能力。解决这个问题通常有两种方式:纵向扩容(Scale up)和横向扩容(Scale out),两种扩容的方式分别从两个维度来解决数据管理压力。纵向扩容就是将数据库服务器的配置提高,如增加硬件资源配置,通过硬件速度提升来解决访问压力。横向扩容就是将应用的数据拆分,将原来集中存储的数据根据一定的规则分布到不同的物理数据库服务器上。纵向扩容模式实施成本较高,压力大到一定程度之后,硬件可能无法满足这类需求。如果能够通过叠加相对廉价设备的方式实现存储和计算能力的扩展,那么这将是长期可扩展的有效手段。这是横向扩容的优势。

举例来说,我国的群体性事件时有发生。政府为了加强对群体性事件的发现和处置能力,就需要有一个基于大数据的舆情分析平台,加强舆情研判能力,以捕捉最佳处置时机。这个平台需要自动收集各种社交网络上的信息并进行整合,监控社会舆情和公众情绪,并具有能对网民群体行为进行社会态势分析与预警的能力,将可能酿成重大舆情危机的不稳定苗头化解在萌芽状态。这个平台需要管理各种结构化和非结构化的数据,需要很强的横向扩展能力和实时数据分析能力。建设这个平台将成为政府一项投资巨大、挑战巨大的任务。

责任编辑:蔡畅校对:总编室最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端