朱利平：统计与大数据（2） − 独家讲稿 − 博古通今 − 文化博览 − 宣讲家网

摘要：信息爆炸的时代，产生了比以往任何时代都要多的海量数据。对大数据信息的应用和获取，已经成为当下最重要的技能之一。那么，我们应该如何认识统计，认识大数据？当前有哪些数据类型？我们又该如何分析不同的数据，并从中提取有用信息？来自浙江大学高分子科学与工程学系的朱利平教授将结合生动的案例，为您一一解答。

第三类是定距变量，也称间距变量。就是说2是比1更有价值的，它的差距为1，比如你是2012年入学的，就会比2013年入学的早一年。它就不仅仅有先后顺序，而且这个间隔大小是有含义的。2013年入学的比2012年入学的晚一年，2016年入学的就会比2013年入学的要晚三年，这个间隔本身是有含义的，它不像之前的ABCD，B减A是没有任何含义的。但现在减了以后是有含义的。第三类数据定距变量在之前那表中也是有的。

第四类是定比变量，也称“定比尺度”或“比率尺度”。这是我们最常用的一类数据。数据有先后，有高低，加减乘除都是有含义的。2就比1要多1，3就比1要多2，2就是比1要多1倍的，这个数据是能够做加减乘除运算的，而且数据之间的差距是有含义的，有绝对的零点。比如孙悟空做题花了12分钟（0.2个小时），唐僧做了2个小时，那么差1.8个小时。1.8个小时就是0.2个小时的9倍。这中间的差距是有具体含义的。这是我们最常用的一类数据，大家所说的数据，绝大部分时候指的是这一类。以下是我们常用的四类数据：

名义：男女、颜色

次序：名次、等级（军衔）

间隔：时间

比率：距离、体重

第一类数据，名义变量，数据大小只是一个符号，没有任何的大小含义。

第二类数据，数据大小有先后的含义，但是数据差之间是没有具体含义的。比如A段可能比B高一段，但是如果B减A不知道等于多少，那这也没什么实际含义的。

第三类数据，间隔数据，这个时候数据的间隔就有含义了，2013级的就比2012级的要晚一年入学。这个差距是有含义的。

第四类数据是我们最常用的，比如体重多少，距离多少。根据不同分类方法、标准，你会分成很多不同类型的数据。

数据还可以按来源来分，比如现有的数据、预测的数据以及国家统计局收集得各种历史数据等。

关于大数据，大家还常常会在书上看到这样一种说法，说大数据就是总体，我们以前分析的数据就是样本，其实这个说法不是很准确。大数据也不一定是全样本分析的，要做到全样本分析是非常非常困难的。

有一些数据就是一个常数，比如π、光速，这是一直不动的，这一类数据是常量。那么，变量是哪些呢？比如你的年龄是多少，这个数据会变，但它不会随机变，今年你是10岁，明年就会是11岁。我们最关心的是最后这一类：随机变量，这一类其实是我们常常会碰到的，所以这里面问题会特别多。比如你预测一下明天来听报告的人会有多少人，这只能预计一个大概范围，具体到多少人，你是不知道的。再比如你知道你明年大概会赚多少钱，但是你不能准确估计你明年能赚多少钱。

大家也常常会举一个例子，说本科生不要谈恋爱，因为谈恋爱成功的比例很低。统计其实关心的就是这类不确定性的问题，不一定是属于加加减减的问题。