首页> 报告> 文稿> 综合> 正文

纪宏:统计改变您的人生(3)

 

第四个故事:超市销售额有规律吗?1993年一位美国人发现,在超市里有67%的顾客在买啤酒的同时,也买了尿布。是顾客喝完啤酒以后用尿布吗?显然不是。进一步调查发现,购买尿布的人80%都是年轻的父亲,在购买尿布的时候,他们顺便为自己买点啤酒。商家发现这样的规律,便在妇产医院及相关的机构的超市里,把啤酒和尿布放在一个货架上,以方便年轻的父亲,结果,销售额大增。这种用于商品的货架设计、存货安排,根据购买模式对客户进行分类的方法,就叫数据挖掘。数据挖掘是统计学一个比较新的研究方向和领域,把统计学、数学、计算机、人工智能、继续学习等各种方法融合在一起的一个边缘学科。数据挖掘的商用价值相当大,利用数据挖掘可以使统计学在为社会服务方面走得更远。

第五个故事:数据胜过轶闻。轶闻引人注目,是因为它很突出,容易深入人心,但轶闻使议题人性化,所以不少新闻报道常常是以轶闻开场或结尾,但它并不足以当成决定的根据,只是能影响收视率罢了。例如美国住在高压线附近的一个儿童得了白血病,孩子的母亲认为是高压线使她的孩子得了白血病,能说会道的母亲在电视台露面,字字血声声泪地控诉,引起公众的同情。而美国国家癌症研究所花了5年时间和500万美元进行研究,资料显示,白血病和高压线产生的磁场并无关系,但人们还是相信轶闻,相信没有代表性的“典型”,而不相信科学推断的数据。所以,我们应该用科学态度来对待事实,而不应该相信轶闻。

第六个故事:《静静的顿河》的作者是谁?1928年有人提出《静静的顿河》作者不是肖洛霍夫,而是克留柯夫。1974年,一个匿名的作者在巴黎写了一本书,断言克留柯夫是《静静的顿河》的真正作者,肖洛霍夫则是一个剽窃者。为了弄清真相,一些学者用统计方法进行了考证,具体做法是把《静静的顿河》同肖洛霍夫与克留柯夫两个人没有疑问的作品用计算机量化,采集数据,加以分析比较。研究结果表明,《静静的顿河》与肖洛霍夫的其它作品非常接近,与克留柯夫的作品则相距甚远,有充分把握推断出《静静的顿河》的作者就是肖洛霍夫,从而了结了长达数十年的文坛公案。这种统计学的新分支叫做文献计量学,主要的功能就是通过文献来搜寻信息。比如要判断《红楼梦》前80回和后40回是不是一个人写的?如果不学统计,你可能要下数十年的工夫,使自己几乎成为一个红学家,要对那段生活的历史、文化、民俗,对曹雪芹、高鹗的风格,做一个全方位的比较,才能够做出一个判断。如果学了统计,把前80回和后40回一对比,看看虚词的使用、句子的长度、标点使用的一些习惯,就可以判出来,国外把这叫做文字DNA。日本京都大学村上教授有一个著名的案例。有一个人去世以后,别人伪造了一份遗嘱。村上教授把这个人生前所有写的信件、书籍作为一个新的样本,与假遗嘱进行对比,发现遗嘱不是此人的行文风格,法院就以此为依据作出相应的判决。

责任编辑:杨婧雅校对:总编室最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端