我们会关心的是什么呢?比如,你测量有多准。大家看看以下哪个测量比较准。测量某地球同步卫星离地球高度,误差1千米(地球同步轨道距地面的平均高度是36000公里)。测量一个人的身高,误差大概在2厘米(假定某男性身高为1.7米)。这两个测量结果谁测得准一些?这看你怎么比,这是有一些标准的。如果比绝对值,一公里的误差比两厘米的误差大多了;如果比相对值,那就很难说了。所以我们认为,相对值可能是我们更关心的一个量。你要去描绘这个数据本身有多准确时,需要根据一定的准则来思考这个量,如果只思考这个均值本身,不一定太管用,要看数据的波动到底多大。如果它的误差是1千米之内,那么他有可能会报35999千米,也可能会报36001千米。就是说,数据会在一定范围内波动。而如果是170厘米高,误差两厘米就是会在168厘米和172厘米这个范围内波动,但是谁更准一些,这很难说。
有一个可能大家会感兴趣的量,这是警察去破案的时候,常常会感兴趣的一个量——脚印长度,根据脚印长度算出犯罪嫌疑人的身高。一个人的身高大概是脚印长度的6.876倍,脚长乘以6.876大体就是你一个成年男性的身高。
这是一个单变量数据统计分布,这个数据是比较好的,正态分布,这是大家会常用的一个量。
微博有很多大V,但是事实上很多人的粉丝是“僵尸粉”,那些其实是机器自动生成的ID。这时候,你可以统计一下上图这个比例,曲线中间有个鼓包,粉丝越多,这个鼓包应该越来越少。在在个曲线上,两万、三万、五万等有一个小鼓包,这就说明什么呢?机器可能自动给你生成两万“僵尸粉”了。刚好这个数据算出来还是一个整数,那么,这个整数(粉丝)非常有可能就是机器生成的。这样看起来粉丝挺多,但是事实上很多都属于“僵尸粉”。
这是关于科比的一个大数据分析例子。有人把科比打所有比赛的录像全部拿出来了,然后统计他总共投球多少次、在哪个位置投的球,并把位置标记好,如果投中了颜色深一点是紫色,如果投失败了是另外一个颜色。科比20年共投篮三万次,他整个职业生涯的投篮命中率是44.7%,命中率最高的位置区块颜色最深。途中三分线位置有一圈明显的空白区域,这应该是刻意避免踩三分线投篮留下的痕迹。还有不少球是在篮板后方命中的。我查看了一下,科比最远一个投篮距离是74英尺(约22.6米),可惜没有投中。投中最远一个球距离是43英尺(13.1米)。NBA球场距离是94英尺。科比的主要攻击区占到45%的出手机会。
科比为什么退役?给大家简单讲一下。从上图可以看出,从某一年龄段开始,他每年的投球命中率是在逐年降低的。所以这是非常无奈的,年龄大了以后,反应速度确实是要下降的,这是完全没办法的事情。所以他选择退役也是合理的,尽管大家觉得很遗憾,但是他自己是非常理智的。
已有0人发表了评论