朱利平:统计与大数据

摘要:信息爆炸的时代,产生了比以往任何时代都要多的海量数据。对大数据信息的应用和获取,已经成为当下最重要的技能之一。那么,我们应该如何认识统计,认识大数据?当前有哪些数据类型?我们又该如何分析不同的数据,并从中提取有用信息?来自浙江大学高分子科学与工程学系的朱利平教授将结合生动的案例,为您一一解答。

搜狗截图19年11月18日1701_1

朱利平 中国人民大学统计与大数据研究院副院长、博士生导师

大约五六年前,我听到的报告绝大部分都是属于“大数据给我们带来的机遇与挑战”这一类的。但最近一些年,很多问题开始陆续落地了,感觉能够听到一些比较有意思的大数据应用。

我来之前,主办方让我给大家介绍一下统计和大数据。那么该介绍些什么呢?那就从入门的地方开始,尽量让大家能听懂。我大学选专业的时候,不知道统计是什么,以为统计就是加加减减。现在开始对统计有重新的认识。所以我再给大家介绍一下,怎么认识统计?怎么去认识这些数据?怎么去分析这些数据?一些统计数据是怎么误导大家的?这里面有很多误区。另外,一些统计数据为什么会与大家的常识或者印象有偏差?最后给大家看看几个简单的应用。

一、如何认识数据?有哪些数据类型?

什么是数据?在我们看来,声音、文字、图片、视频音频、文本等,这些都可以算作我们分析的数据。比如之前网上有一个很有意思的游戏,你在网上拍一张图片,然后上传,由此可以判断你的年龄是多少。

图片2

数据一般长什么样?我们假设猪八戒、唐僧、孙悟空、沙和尚师徒四人一起去考试,考试有准考证号码或身份证号码,身份证号码的前面六位一般表示你的地区信息。第二个信息是你的名字。还有一个性别,以及你是哪个年级的。最后,现在考试成绩我们都要求有ABCD四个等级,然后这个成绩要转换成基点,以及你的原始成绩是多少、考试时长。这个表格(如上图)特别简单,但是却几乎囊括了我们所有要接触的数据类型。从以上表格可以看出,猪八戒考试得了100分,孙悟空坐不住,12分钟就交卷了。

我们常常会接触的数据有哪些呢?第一类叫名义变量。什么是名义变量?比如性别、年龄这一类的数字,它没有大小的关系,只是一个代码。例如我用“1”来表示男,用“2”来表示女,用身份证号码的前面六位表示你的出生地信息。这些数字的大小,没有高低,也没有先后,是没有任何含义的,只是一个记号。上图表格中,我们看到的第一类数据就是名义变量。

第二类是次序变量次序变量是跟顺序有关的数据,它有很多用途。每一个变量的大小,是表示先后顺序的,而不是倍数关系。比如1号店做的一个简单的大数据分析,统计上海市高校购买零食的情况,然后看看哪一所大学买零食最多。这是很容易统计的,我们只要看看邮寄地址,就可以知道哪个地方“吃货”最多。但这个数据是按绝对数量统计的,比如上海大学,它在上海有特别多校区,本身人数上的规模就非常大。所以这并不是上海大学每个同学都好吃,而是它的学校本身的绝对量大。

图片3

再比如上面这个例子,颜值最高大学。这也是1号店做的统计,怎么统计的呢?看哪一个大学,买化妆品买得最多。化妆品买得最多的,颜值最高。

图片4

第三个,哪个高校潮人最多。怎么衡量是不是潮人?这也全是1号店的数据。看潮人就看买单反,只看这一个指标,这个指标不一定准确。但是很多大数据现在都停留在娱乐阶段。当然,娱乐之外,还有真正跟科学有关的一些问题。

图片5

他们统计了很多指标,其中一个叫暖男最多的大学。这就是统计男性给女性买用品。

这些排行榜谁排第一,谁排第二,有一个高低、先后顺序。但不是说排第二的就是排第一的两倍。我们回头看之前的成绩表。成绩表分了ABCD四段,A段的学生排第一段,B段的学生就排第二段,C段的学生就排第三段。所以成绩表中也有第二类数据。

责任编辑:叶其英校对:杨雪最后修改:
0