朱利平:统计与大数据(6)

摘要:信息爆炸的时代,产生了比以往任何时代都要多的海量数据。对大数据信息的应用和获取,已经成为当下最重要的技能之一。那么,我们应该如何认识统计,认识大数据?当前有哪些数据类型?我们又该如何分析不同的数据,并从中提取有用信息?来自浙江大学高分子科学与工程学系的朱利平教授将结合生动的案例,为您一一解答。

这是关于科学的,我家里面不是很同意我来做老师的,但是我自己觉得做科学是很有意思的。

图片22

我跟大家看一些简单例子,上图这个人叫安吉丽娜·朱莉。我为什么把这个人列出来呢?在一些数据比较大的时候,比如想知道这个人得病不得病,由基因决定的,这时候我就会知道是哪个基因会有问题。哪个基因会有问题呢?首先要找到这个基因,左边这个人是好莱坞巨星,叫安吉丽娜·朱莉。她干了一件什么事情呢?安吉丽娜·朱莉当时做了一个基因检测,检测查出她不幸携带了一种强致癌基因。当时她并没得乳腺癌。于是她就主动把乳房给切除了,这对于电影明星来说是一个巨大损失。但是提前干预比事后要好很多了,这不是早期的问题了,而是更早期。但是并不是每一个癌症我们都了解得那么清楚,比如肺癌这样的问题,我们没了解清楚的。复旦大学一个老师,做了一个基因检测,预测他以后会得肺癌。结果后来得了癌症死了,但是却是死于咽喉癌。有很多病,现在我们都在探测是哪些基因引起的。

图片23

上图是我们自己做的一个数据,就是一只老鼠得不得红眼病的数据。你可能不关心,但是真正去做的时候,你会发现很有意思。你可以看到哪个基因在起重要作用。这个图形都是通过统计的办法分析出来的,乱糟糟的,我们看不到什么现象,需要把这个图形放大,放大成左下角的图形,结果发现还不太规律,那么继续放大,最后看到右下角的图形。这很显然可以知道,基因非常重要。这是我们自己做的一个小老鼠的实验,而且只有120只老鼠,但是我们要分析的数据大概有多大?有10个G,要分析出这么一个图形出来,其实挺不容易的。

图片24

最后给大家一个建议,提醒大家提早锻炼。年龄越大的时候,血管的弹性会越差,然后血压会变高。我们看看不同年龄段血压与年龄之间的关系。上图可以看出,不管男性还是女性,在39或40这个年龄段时,你会突然发现随着年龄的增长,血管的弹性会很快变弱,也就是说血压与年龄的相关性会变得更高了。而在此之前,它的相关性是比较弱的。也就是说,年龄增加一点,血压就会增加一点;年龄增加一点,血压增加的速度也会比较快。所以,39、40岁左右就要小心身体了。现在公园里都是老年人锻炼身体,但是到年老的时候再锻炼身体已经没有多大用处了。到80岁时,锻炼身体已经基本没什么用了,血管的弹性已经恢复不过来了。所以到80岁的时候,年龄再增长,跟血压的升高程度已经关系非常弱了。这中间有一个变弱的过程,而血管一旦脆了以后,这是不可逆的,锻炼身体要趁早。

以上是我要给大家讲的全部内容。谢谢大家!

(根据宣讲家网报告整理编辑,

未经许可,不得印刷、出版,违者追究法律责任)

 

责任编辑:叶其英校对:杨雪最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端