朱利平：统计与大数据（4） − 独家讲稿 − 博古通今 − 文化博览 − 宣讲家网

摘要：信息爆炸的时代，产生了比以往任何时代都要多的海量数据。对大数据信息的应用和获取，已经成为当下最重要的技能之一。那么，我们应该如何认识统计，认识大数据？当前有哪些数据类型？我们又该如何分析不同的数据，并从中提取有用信息？来自浙江大学高分子科学与工程学系的朱利平教授将结合生动的案例，为您一一解答。

如果这个数据是指收入的话，那么绝大部分人的收入指的是柱状比较高这一块，但是有些人特别有钱，所以他们把“尾巴”拖得很长很长（横轴是收入，纵轴是人数）。所以很多数据都满足这一种情况，就是有一些人赚得特别多。

数据是怎么来的？

数据有各种各样的来源途径，但是收集这些数据特别不容易。比如一个很简单的例子，问哪一个国家的人撒谎最多。这是不太好问的一个问题，那么怎么去问呢？有人设计了两个实验。第一个实验，每一个国家挑一千个人，在网上做一个调查，但是不直接问你有没有撒谎。他就说，只需要你在家里面来参加这个实验，你在家里面自己抛一枚硬币。如果硬币的正面朝上，我给你5块钱；如果硬币的反面朝上，你就不能拿到钱了。从这个实验可以知道什么呢？比如调查1000个人，如果有900个人都告诉我硬币正面朝上了，中间肯定有人撒谎了。这个撒谎的比例是很高的，因为有利益的驱动。我并不需要知道每一个人有没有撒谎，只需要一个比例。这是第一个小实验，看看这个国家的人是不是诚实。

第二个实验，一批人选进来以后，同时会参加两个小测试，这两个小测试都是很简单的。然后他会问你一堆问题，也告诉你如果你把这些问题答对了，我就给你一些钱。比如有五个问题，其中有两个问题特别简单，不管你是哪一个国家的人，一眼就能看出来答案，但是其他三个问题设置得特别难，而且很生僻，如果不去查资料，几乎不可能找到答案。但是测试之前就告诉你，不许查资料。这样为了得到钱，有些人就会去查资料。在五个问题中，正常情况下应该只有两个题能答对了，如果五道题全答对了，一般就是认为你肯定是查了资料。

名义变量：大数据文本分析

第二类数据怎么来的？这是跟大数据有关系的。现在大数据会有一些舆情分析，做一些文本分析。这个例子特别多。

上图是统计情侣之间聊天时出现频率较高的语句。聊得越多的话，字就越大。统计出来之后，算一下频数就行了。聊得少的字就特别小，聊得越多的字就越大。字有大有小，大小是由它出现的频率来决定的。

还有一些应用，看搜索的哪些关键词出现频率最高，就是大家最关心什么问题。这对做舆情分析是非常有用的。某一个新闻事件出现以后，搜索量会增加，这就可以统计一下频数，看哪些词出现的频率高，出现频率越高的字体就越大，出现频率越低的字体就越小。

做舆情分析有什么用途呢？做舆情分析有很多用途。你自己一个人在网上检索某个关键词，这个信息没什么太大的用途，但是全中国人都在搜索一些关键词，我把它统计出来，就可以知道绝大部分中国人在关心什么问题。我只要看看这段时间，中国人都在搜索一些什么关键词，再过一阵子以后，中国人又在搜索一些什么关键词，就可以大概判断你这个国家的科研走向，它不一定很准，是一个很粗糙的办法。

第二个小例子很有意思，是我们常常用的。把横轴改一改，把纵轴改一改，这些数据都是真实的，但是横轴和纵轴改一改，看到的情况就会大不相同。没造任何假，但是图形展示的方式不一样，给你看到的结果会完全不一样。

再看第三个，这是美国的一个真实数据，每一个季度的财政收入。左边这个图形是逐年增长的，能看到这个很明显的趋势，但是真实图形是右边的图形。它怎么做的呢？为了显示出逐年增长，他只把右边图形最上面那一段给截取出来给你看。他的横轴不是从0开始，而是从94开始。从94开始截取，只是展示图形的一段给你看，那我们视觉所看到的增长速度就是非常快的，但事实是没怎么动。这样截取一部分很容易给你一个视觉上的误差，觉得收入在不断增长。所以我们在看图形的时候，要稍微小心点，不要被误导了。

怎样提取数据中的信息？

数据中的信息量是非常大的，我们怎么样去把数据中的信息提取出来，尤其是数据特别大的时候，我们怎么把重要的信息都给提取出来？目前在数据量特别大的时候，我们其实只做一些加减的工作，但是这些加减的工作本身也是很麻烦的。

名义变量无法进行四则运算，不存在平均数，比如性别男或女，这时候求一个平均值没任何意义，男的有100个，女的有100个，最后你求出一个均值是个啥呢？对这一类数据而言，你就不要去管均值，只要关心哪一个数出现的次数最多。出现次数最多的那类叫众数，比如每次要投票的时候，我们总是要求2/3以上出席，说明把出席的人分成了两类，出席的人和不出席的人，出席的人占到2/3了，这是最多的了，不可能再比这个更多了。出席1/2以上通过，那就是同意这个方案的人只要超过1/2，那么这就是出现次数最多的一个数了，另外一个数肯定少于1/2了。1/2以上表决通过，这就是一个出现次数最多的意见了。所以，我们就按次数出现最多的来做，这个名词叫“众数”。这就是一些没有办法做加减运算的数。

做加减运算是我们最熟悉的变量，这样的数据求均值是很有价值的。但是这个价值，常常给大家的感觉是与现实不吻合，比如你每个月收入10万块钱，我每个月收入1块钱。那这一平均，变成5万块左右，我就被平均了。这就是一个被平均的概念。

收入情况是最容易被平均的一个量。什么原因呢？如上图，横轴是收入，纵轴可以理解成比例，是跟比例非常有关系一个量。也就是说，你可以看到，绝大部分人的收入其实都是比较低的。尾巴拖得很长很长，但是一百万以上还是有不少人。这样一算平均值，绝大部分人的收入达不到这个值。所以这个时候，你会感觉自己被平均了。长尾的数据最后会导致你很容易被平均，所以统计局报的数据确确实实是真实的。

AMAZON经常会弄一些十大畅销书排行榜，这个时候横轴就是某些书，纵轴是销量。他就发现一个现象，AMAZON绝大部分利润并不来自于这些畅销书，而是来自于那些销量比较低的书，销量比较低的数据占了很大一部分。销量比较低的数据，卖得并不是那么畅销，但是这类书特别多。所以销量很低的书籍给他创造很多利润，这就是长尾理论一个很惊人的例子。

还有一类变量，我们叫几何均值。算均值有很多种算法。一种是把数据简单拿过来平均，第二种就是算大概50%的人的收入是多少。第三种是算一个几何均值。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时，求各阶段、各环节的一般水平、一般成果，要使用几何平均法计算几何平均数，而不能使用算术平均法计算算术平均数。这个算起来比较麻烦一点。

朱利平：统计与大数据（4）

精选专题

精选文章

精选视频

精选图片