大数据分析下的中国社会舆情:总体态势与结构性特征

大数据分析下的中国社会舆情:总体态势与结构性特征

基于百度热搜词(2009—2012)的舆情模型构建

核心提示:一个理性的社会,应该允许各种言论存在,否则,任何不据事实的偏袒都会造成阶层新的裂痕,使裂口越拉越大,终至断裂到无法修复。只有少数富人加上大多数穷人所组成的“倒T型社会”,其阶层对立之强和利益冲突之烈,是无法用任何说教和道德约束来统领整合的。

[摘要] 以2009—2012年百度搜索词数据库为研究对象,采用大数据的价值挖掘与分析技术,探讨将碎片化的舆情信息如何整合处理并进行舆情模型构建的方法,在此基础上分析当下中国社会舆情的结构性特征,对“社会暖度”、“社会幸福感”及“社会压力”等中国社会舆情指数进行具体测定和分析,对于社会管理和社会协调有重要启示。

[关键词] 大数据分析;热搜词;社会舆情;模型

百度(www.baidu.com)作为中文互联网第一搜索入口,在中国覆盖超过95%的网民,日均有超过40亿次的搜索请求。百度搜索词的海量数据代表了中国网民最真实、最客观的精神需求和信息寻求的行为特征,勾勒了一幅描绘中国社会生活诸领域的真实画卷。在某种意义上可以说,百度搜索词已然成为反映中国社会变迁的重要风向标和社会舆情参照系。

但是,一个个搜索词最多只是对中国社会整体发展面的碎片式的反映,并没有给社会公众提供一个关于社会整体状况的坐标系,使得人们对社会整体的现实走势和未来发展很难把握。基于此,百度公司委托中国人民大学舆论研究所进行百度搜索词数据的深度价值挖掘。我们利用数据挖掘方法,在国内首次提出了中国社会暖度指数、中国社会舆情运行压力指数、中国经济关注指数、中国民生关注指数、中国社会责任关注指数、中国创新力关注指数、中国社会期待关注指数、中国环境生态安全关注指数、中国金融安全关注指数、中国信息安全关注指数、中国人口安全关注指数、中国资源安全关注指数、中国卫生安全关注指数、中国公共安全关注指数等一系列反映中国社会基本面状况的社会评价性指标,并对不同网民的需求特点进行了较为精确的描述和分析。

本文根据2009—2012年百度每年搜索量最高和关注热度上升最快的前1 000个搜索热词总搜索量的相关数据,进行分析统计并得出结论。

一、大数据分析方法:透过巨量搜索数据见微知著,形成社会舆情的整体判断

世界已经进入了大数据时代。所谓“大数据”,直观理解就是信息和数据量的规模十分巨大,无法用常规的信息技术手段和软硬件工具进行感知、获取、管理和处理的数据集合。大数据时代的生成背景是:数据获取技术的革命性进步、传感器等自动采集的数据、Web2.0等用户生成数据(UGC)以及移动设备生成的数据(位置、移动和行为信息等)。大数据具有规模性、多样性、高速性和有价值等特点。大数据分析就是以诸种创新的方式对海量数据进行分析、梳理和加工,获得具有巨大价值的产品和服务或深刻洞见的数据及处理方法。

大数据分析的主要技术手段是采用数据挖掘(Data mining)。数据挖掘又称数据库中的知识发现,即指从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程。我们对于百度搜索词数据所进行的、反映社会基本面状况的舆情指数的计算,正是基于百度作为搜索引擎的技术特性设计和数据价值挖掘的方法而构建起来的。

(一)TOP1 000:为海量搜索数据截取最具舆情代表性的有限数据集

搜索量的高低反映了民众对该关键词所代表的事件的关注程度。百度作为国内第一大搜索引擎运营商,从后台数据库中可以提取出每一个搜索词的对应搜索量。但每天高达40亿次的搜索数据不但数量极为巨大,而且所指对象也极为繁杂。大数据处理的一个重要逻辑就是将价值含量较低的海量数据进行价值凝炼和萃取,在不失代表性的前提下进行数据简化处理。这对于舆情分析而言不仅是必要的,而且是可行的。

社会舆情分析所关注的是社会基本面的描述和分析,对于不涉及基本面的非权重的分散数据的处理不但极大地增加了数据处理的成本和难度,还会在相当程度上使数据处理受到非相关信息的扰动而使结果变得不甚清晰。按照统计学的原理,就社会基本面的舆情呈现而言,TOP1 000热搜词和上升最快的TOP1 000热搜词足以代表民意的集合性关注及变化消长,其中TOP1 000热搜词反映社会关注的基本面,而上升最快的TOP1 000热搜词则反映了新出现的新闻事件的社会关注度。这两类1 000个搜索热词可以较为粗略地“刻画”出中国社会“舆情地图”。因此,选取TOP1 000热搜词和上升最快的TOP1 000热搜词作为舆情分析的数据处理对象,不但数据量得到极大精简,而且也使“民意图像”更加凝炼和清晰。

(二)社会语义分析:为舆情指数与相关搜索数据建立彼此关联的转化“通道”

社会暖度、社会压力以及幸福感等都是内涵极为丰富的抽象概念,但又是反映社会基本面的重要指标。对于这类舆情指标的数据提取,传统的方法是从这些概念的定义出发,进行概念操作化的指标确定。但从反映实态民意的角度看,人们对于“温暖”、“压力”、“幸福”的实际理解和感受或许要比基于理论定义的概念操作化更能反映舆情的实态。换句话说,人们正是在这样的意义框架里感受社会冷暖、社会压力和社会幸福的。而对于网络上的海量文本的核心词语(如“温暖”、“压力”、“幸福”等)进行社会语义分析,可以帮助我们准确定义当下中国人头脑中关于这些核心词语的心理感受域(语义范围及权重大小)。

在本项研究中,我们采用了社会语义分析的方法,通过“人大—方正舆情监测分析系统”采集对应于某核心词的海量网络相关文本,再依据社会语义分析软件去分析当下中国人心目中实际理解和感受下的相关概念的核心内涵究竟是什么,并根据社会语义分析的结果(根据分解出来的各个语义词与核心概念之间相伴出现的频次概率、与核心词的字符间隔数以及正负情感评价等)将TOP1 000热搜词中的所有相关词进行加权处理,计算出每一核心概念所负载的舆情指数。图1是我们对于构造舆情指数的指标中的核心词(如社会暖度、社会幸福、社会期待和社会责任)按照现阶段民众的实际社会表达所分解出的该概念的社会语义分析图。

1

2

责任编辑:单梦竹校对:总编室最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端