统计改变您的人生(3)

核心提示:如果要了解上帝在想什么,我们就必须学统计,因为统计学就是测量上帝的旨意。六个统计学故事:文学家王蒙的统计悟性,世界上没有破解不了的密码,曹雪芹懂统计吗?超市销售额有规律吗?数据胜过轶闻,《静静的顿河》作者是谁?

第三个故事:曹雪芹懂统计么?《红楼梦》第六十三回宝玉过生日,晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩掷骰子抽签的游戏。大家围成一团,按照摇出骰子的点数数到谁,谁就从签筒里抽出一根签,按照签上的要求或罚做诗、或罚喝酒。我们感兴趣的是四个骰子出现的点数分布。假设这四颗骰子均为没有出老千的骰子,经计算其分布,如无限次数的扔硬币,正反面概率为1/2,那么扔一个骰子每个面出现的概率就是1/6,同时扔四个就要算一算了。人民大学袁卫教授把它算出来了,有四个参数:点数、理论频数、频率(概率)、实际频数(贾宝玉和众美女实际扔的次数)。贾宝玉和众美女实际扔的次数一共扔了八次,分别是五点一次、六点一次、八点一次、十六点一次、十八点一次、十九点两次、二十点一次。这些点数所相应对的概率都非常小,有六次结果是小于0.05的小概率。小概率在一次实验中几乎是不可能发生的,而曹雪芹先生竟摇了八次,就有六次结果是小概率。特别是晴雯和香菱分别摇出了0.0031、0.0077的小概率,相当于雨点打在香头上。这该做何解释呢?曹雪芹在写这一回时,实际上事先确定了摇骰子的几位人物,并为这些人物设定了骰子及诗词作为与此人命运的写照。如果曹雪芹有一点概率统计的知识,他就会合理安排人物的顺序和给出合理的点数,就不会发生小概率了。所以,我们分析的结果是曹雪芹不懂统计。因为在曹雪芹的时代,西方的概率统计刚刚产生。

第四个故事:超市销售额有规律吗?1993年一位美国人发现,在超市里有67%的顾客在买啤酒的同时,也买了尿布。是顾客喝完啤酒以后用尿布吗?显然不是。进一步调查发现,购买尿布的人80%都是年轻的父亲,在购买尿布的时候,他们顺便为自己买点啤酒。商家发现这样的规律,便在妇产医院及相关的机构的超市里,把啤酒和尿布放在一个货架上,以方便年轻的父亲,结果,销售额大增。这种用于商品的货架设计、存货安排,根据购买模式对客户进行分类的方法,就叫数据挖掘。数据挖掘是统计学一个比较新的研究方向和领域,把统计学、数学、计算机、人工智能、继续学习等各种方法融合在一起的一个边缘学科。数据挖掘的商用价值相当大,利用数据挖掘可以使统计学在为社会服务方面走得更远。

第五个故事:数据胜过轶闻。轶闻引人注目,是因为它很突出,容易深入人心,但轶闻使议题人性化,所以不少新闻报道常常是以轶闻开场或结尾,但它并不足以当成决定的根据,只是能影响收视率罢了。例如美国住在高压线附近的一个儿童得了白血病,孩子的母亲认为是高压线使她的孩子得了白血病,能说会道的母亲在电视台露面,字字血声声泪地控诉,引起公众的同情。而美国国家癌症研究所花了5年时间和500万美元进行研究,资料显示,白血病和高压线产生的磁场并无关系,但人们还是相信轶闻,相信没有代表性的“典型”,而不相信科学推断的数据。所以,我们应该用科学态度来对待事实,而不应该相信轶闻。

第六个故事:《静静的顿河》的作者是谁?1928年有人提出《静静的顿河》作者不是肖洛霍夫,而是克留柯夫。1974年,一个匿名的作者在巴黎写了一本书,断言克留柯夫是《静静的顿河》的真正作者,肖洛霍夫则是一个剽窃者。为了弄清真相,一些学者用统计方法进行了考证,具体做法是把《静静的顿河》同肖洛霍夫与克留柯夫两个人没有疑问的作品用计算机量化,采集数据,加以分析比较。研究结果表明,《静静的顿河》与肖洛霍夫的其它作品非常接近,与克留柯夫的作品则相距甚远,有充分把握推断出《静静的顿河》的作者就是肖洛霍夫,从而了结了长达数十年的文坛公案。这种统计学的新分支叫做文献计量学,主要的功能就是通过文献来搜寻信息。比如要判断《红楼梦》前80回和后40回是不是一个人写的?如果不学统计,你可能要下数十年的工夫,使自己几乎成为一个红学家,要对那段生活的历史、文化、民俗,对曹雪芹、高鹗的风格,做一个全方位的比较,才能够做出一个判断。如果学了统计,把前80回和后40回一对比,看看虚词的使用、句子的长度、标点使用的一些习惯,就可以判出来,国外把这叫做文字DNA日本京都大学村上教授有一个著名的案例。有一个人去世以后,别人伪造了一份遗嘱。村上教授把这个人生前所有写的信件、书籍作为一个新的样本,与假遗嘱进行对比,发现遗嘱不是此人的行文风格,法院就以此为依据作出相应的判决。

责任编辑:李贤博校对:总编室最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端