二、如何分析数据并从中提取有用信息
怎么分析数据?不同的数据,我们有不同的分析方法。我尽可能用一些图形来表达。
比如上图,一个自动售货机有五种饮料,分别是Coke Classic、Diet Coke、Pepsi、Sprite。这台自动售货机一共有五款饮料,这五款饮料一共卖了50罐。这个例子我们去分析它的时候,常常会把它汇总,这个数据是一个名义变量。
Coke卖了多少瓶,Diet Coke卖了多少瓶,Pepsi卖了多少瓶,Sprite卖了多少个,总共卖了多少瓶,这是第一组最简单的分析。
然后,你可能会统计一下每种卖出的饮料占卖出的总数的百分比,这是很容易算的。
但是,我们看到更多的是图形表达,用柱状图展示每一种饮料卖了多少瓶,可能小学二年级就要开始画这个图了。
你还可以画一个饼图。你发挥自己的想象,想画什么图就画什么图。绝大部分时候,我们都是用图形来表达我们所看到的一些数字。因为图形给大家看起来最直观。大家在汇报某项工作时,也可以尽可能地用图形去表达,因为图形去表达能够让你的上司在第一时间就知道你大概想表达的意思。你说了很长的话,不如画一个图管用。所以,我们用得最多的还是各种各样的图形。
有些数据是连续的,比如一门课旁听的情况,我们可以统计旁听了10天到14天的有多少人,15天到19天的有多少人,20天到24天的有多少人,这是个连续数据。一个连续的数据,我们可以把它分段以后再统计出来。总共有20个人,其中有4个人旁听了10到14天,这个数据也会是常用的数据。为什么会是一个常用的数据呢?比如统计局就可以用这种统计方法去调查一下,有多少人的年收入在1000块钱以下,有多少人的收入会在1001到2000元之间,有多少人收入在2001到3000元之间。这是按区间去分的,你的收入也会是一个连续的变量。
数据分好区间之后,我们也可以把它做成各式各样的表格。但是这个柱状图与之前饮料销售情况的柱状图有区别。饮料销售情况的柱状图中,Coke Classic、Diet Coke、Pepsi、Sprite的柱状是分开画的,但是对连续的数据而言,我们常常会把它画得连在一起。连在一起画,是表达数据本身类型不同。连在一起与不连在一起所表达的含义也是不一样的。
大家看这个图,这叫直方图。左上角这个图形左边的“尾巴”很长,右上角的图形右边的“尾巴”很长,右下角的图形右边的“尾巴”是又瘦又长。我们最常用的,可能是右下角这个图形的,我们叫做数据有很大偏差。左下角这个图形是指数据看起来比较对称。数据看起来比较对称,是什么时候你会需要呢?我自己在高校工作,你的卷子出得好不好,如果考试的人足够多,考80分的人应该占大部分,考90分以上的人比较少,不及格的也不太多。也就是说,这个数据本身靠近正态,那么这是大家认为出得比较好的卷子。但现实中基本碰不到完全对称的情况。我们碰到的绝大多数图形都是右下角这种图形,这种图形特别有用。有一本书叫《长尾理论》,长尾理论指的就是图标上那个“尾巴”拖得很长的时候,如何在“尾巴”上赚钱。比如谷歌广告,谷歌打广告跟很多公司打广告不一样,他很少会去找一些特别大的公司打广告,而是会找来一些小公司打广告,那些公司都不太有名,但是他从每个公司下面赚少一点钱,最后合起赚一大笔钱。
已有0人发表了评论