朱利平:统计与大数据(3)

摘要:信息爆炸的时代,产生了比以往任何时代都要多的海量数据。对大数据信息的应用和获取,已经成为当下最重要的技能之一。那么,我们应该如何认识统计,认识大数据?当前有哪些数据类型?我们又该如何分析不同的数据,并从中提取有用信息?来自浙江大学高分子科学与工程学系的朱利平教授将结合生动的案例,为您一一解答。

二、如何分析数据并从中提取有用信息

怎么分析数据?不同的数据,我们有不同的分析方法。我尽可能用一些图形来表达。

图片6

比如上图,一个自动售货机有五种饮料,分别是Coke Classic、Diet Coke、Pepsi、Sprite。这台自动售货机一共有五款饮料,这五款饮料一共卖了50罐。这个例子我们去分析它的时候,常常会把它汇总,这个数据是一个名义变量。

图片7

Coke卖了多少瓶,Diet Coke卖了多少瓶,Pepsi卖了多少瓶,Sprite卖了多少个,总共卖了多少瓶,这是第一组最简单的分析。

图片8

然后,你可能会统计一下每种卖出的饮料占卖出的总数的百分比,这是很容易算的。

图片9

但是,我们看到更多的是图形表达,用柱状图展示每一种饮料卖了多少瓶,可能小学二年级就要开始画这个图了。

<p>图片10</p>

你还可以画一个饼图。你发挥自己的想象,想画什么图就画什么图。绝大部分时候,我们都是用图形来表达我们所看到的一些数字。因为图形给大家看起来最直观。大家在汇报某项工作时,也可以尽可能地用图形去表达,因为图形去表达能够让你的上司在第一时间就知道你大概想表达的意思。你说了很长的话,不如画一个图管用。所以,我们用得最多的还是各种各样的图形。

图片11

有些数据是连续的,比如一门课旁听的情况,我们可以统计旁听了10天到14天的有多少人,15天到19天的有多少人,20天到24天的有多少人,这是个连续数据。一个连续的数据,我们可以把它分段以后再统计出来。总共有20个人,其中有4个人旁听了10到14天,这个数据也会是常用的数据。为什么会是一个常用的数据呢?比如统计局就可以用这种统计方法去调查一下,有多少人的年收入在1000块钱以下,有多少人的收入会在1001到2000元之间,有多少人收入在2001到3000元之间。这是按区间去分的,你的收入也会是一个连续的变量。

图片12

数据分好区间之后,我们也可以把它做成各式各样的表格。但是这个柱状图与之前饮料销售情况的柱状图有区别。饮料销售情况的柱状图中,Coke Classic、Diet Coke、Pepsi、Sprite的柱状是分开画的,但是对连续的数据而言,我们常常会把它画得连在一起。连在一起画,是表达数据本身类型不同。连在一起与不连在一起所表达的含义也是不一样的。

图片13

大家看这个图,这叫直方图。左上角这个图形左边的“尾巴”很长,右上角的图形右边的“尾巴”很长,右下角的图形右边的“尾巴”是又瘦又长。我们最常用的,可能是右下角这个图形的,我们叫做数据有很大偏差。左下角这个图形是指数据看起来比较对称。数据看起来比较对称,是什么时候你会需要呢?我自己在高校工作,你的卷子出得好不好,如果考试的人足够多,考80分的人应该占大部分,考90分以上的人比较少,不及格的也不太多。也就是说,这个数据本身靠近正态,那么这是大家认为出得比较好的卷子。但现实中基本碰不到完全对称的情况。我们碰到的绝大多数图形都是右下角这种图形,这种图形特别有用。有一本书叫《长尾理论》,长尾理论指的就是图标上那个“尾巴”拖得很长的时候,如何在“尾巴”上赚钱。比如谷歌广告,谷歌打广告跟很多公司打广告不一样,他很少会去找一些特别大的公司打广告,而是会找来一些小公司打广告,那些公司都不太有名,但是他从每个公司下面赚少一点钱,最后合起赚一大笔钱。

责任编辑:叶其英校对:杨雪最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端