首页> 报告> 文稿> 社会> 正文

陈润生:基因组、大数据、精准医学(3)

四、精准医学才刚刚上路

精准医学现在发展到了哪一步?精准医学刚刚上路,相对前沿学术内容,精准医学的发展还有很多困难、很多挑战,所以我们还有很远的路要走。

(一)基因组、转录组中的挑战——基因组中的暗信息

我们测量一个遗传密码的作用有多大?在不久的将来,花100美元,我们每个人都可以测自己的遗传密码。但是集中全世界科学家的努力,我们目前能够精确解读的遗传密码不超过3%,剩下97%我们没读懂。换句话说,我们精准医学的起步点,就是基于我们对遗传密码只知道3%的这样一个点上。那么随着时间的推移,我们了解的会越来越多。当我们对自身的遗传密码的解读达到90%以上的时候,我们就基本上达到“精准”了。

3%是什么?就是我们的遗传密码当中编码蛋白质的那部分,也就是遵循中心法则的那部分、传统意义上造蛋白的部分。也就是说,你现在测量遗传密码,如果肿瘤是由于这3%的突变引起的,那么遗传密码能提供给你很多信息;如果肿瘤是由于97%的突变引起的,那么现在的状态是不能判断的。当然,测一测还是有益的,毕竟对于那97%的研究是不断前进的,过几年就会有新的进展。2010年12月17日的Science(《科学》杂志)评选了人类进入21世纪以后,从2001年到2010年这十年,人类在自然科学领域的十个重要事件。其中,第一个便是“基因组当中的暗物质”。它讲的是,遗传密码大部分是暗的,即暗物质或暗信息,因为我们知道的只有人的遗传密码的极小部分,这就是我们当前理论上认识的疆界。

有人说那97%的遗传密码没有用,但其实那97%如果发生突变,一样会导致疾病。比如,Oncogene杂志在2004年的23卷中就发现97%的遗传密码中的名为PCGEM1的位点,如果发生突变会导致前列腺癌。此外,我们还发现,名为His-1的位点如果发生突变则会导致白血病;名为MALAT-1的位点如果发生突变则会导致非小细胞肺癌;名为H19的位点则扮演着类似于P53蛋白的角色,作为防御机制保护我们远离细胞癌变。所以,有证据证明,那97%的遗传密码参与了我们已知的所有生物过程,是未来非常值得研究的,也是大家所关心的领域。

(二)大数据带来的挑战

1.数据端的挑战

第一个挑战来自于数据源,即人的遗传密码。人的遗传密码是一个大数据,有两个特点:一是增速极快,因为全球的人们都在测量遗传密码,所以这是我们迄今为止知道的增速最快的大数据之一,国际上也有很多的数据库,人们面临着数据存储与分析上的困难;二是数据有误差,信噪比低、缺失值高、错误率高,所以从数据端来讲是有挑战的,比如现在的仪器不只是价钱降得很低,而且产生数据也很快。

发现DNA双螺旋而获得诺贝尔奖的沃森·克里克在测量他自己的遗传密码时,用了两个月,花费了100万美元。这发生在人类遗传密码的相关计划在世界上诞生十年左右的时间。现在,测量一个人的遗传密码的成本从100万美元降到了100美元。大家可以看到,没有哪一个数据、哪个仪器,发展如此之快。

此外,国际研究还有一个动向,那就是微生物组。通过对遗传密码的研究,人们的测序能力有了显著提高,从而可以研究人体内的微生物与疾病的关系。跟我们一起生活的微生物有多少?据统计,常态下,每个人体内大约有1-2公斤微生物。这些微生物与你有着很重要的关系,而现在由于有了大规模测序,它们也可以被我们研究了。进而,我们现在要处理的数据之多,并不完全是因为遗传密码多,而是要解决的科学问题也越来越复杂了。

2.样品端的挑战

虽然数据越来越多,但是要解决一个科学问题而取样,而样品却没有因为数据的增加,变得更容易获取。比如,我们要研究肿瘤,获取肿瘤病人的样品是很难的。要真正地研究,就要建立数学模型。数学模型里面有很多的变量,要研究这个肿瘤的话,其内部变量往往是1000、2000……这就要求这个数学模型要得到有益的解的话,样品数要跟变量匹配。如果说这个模型有1000、2000个变量,而我们取的样品(病人)只有100个,结果就是不可靠的。对此,我们可以通过国家行为来解决,如美国的精准医学计划,变量是1000、2000就测100万个病人,中国的精准医学计划也是要测100万人。

3.疾病相关的复杂网络

我们研究的这些基因之间有着复杂关系。对于一整个生物体来说,不应该孤立地考虑一个基因,而应该考虑基因的网络。这个网络是动态的、有向的、双色的、非线性的。总而言之,对于更为复杂一点的问题,我们只是研究孤立的基因是不够的,还要了解基因和基因之间的相互作用。

4.高度异质化数据的整合

我们要想了解疾病的关系,就要把遗传密码与心电图、脑电图、血糖血脂、CT、核磁等检查信息整合在一起。这就是所谓的不同介质的高度异质化数据的整合。医生在判断疾病时,仅凭组学数据是不够的,一定要跟常规检验的信息结合在一起。

怎么整合?这是一个更加复杂的问题。真正要对一个人做全信息的分析、观察疾病的本质,至少涉及六类数据:一是基础数据,如姓名、性别、年龄、治疗记录等;二是生理、生化检测,如心电、血压、血糖、血脂等;三是影像资料,如超声、核磁、断层、PET等;四是组学数据,如基因组、转录组、蛋白组、代谢组、表观组等;五是处治数据,如用药、手术等;六是环境资料,如微生物、大气、水文、地质、辐射等。

综合考虑所有六类数据,我们就会对一个人作出更加准确的判断。所以,我们在精准医学时代是会产生各种大数据的。对大数据的解析,则要求我们统一分析与疾病有关的范围更广的各种因素。对于如此庞大的数据量,我们可以选择的就是依靠人工智能。人工智能可以完成这六类数据的整合与分析,把高度异质化的数据整合在一起正是它的优势。

5.数据共享

大数据越来越多,如何做到国家层面的数据共享,这不仅仅是学界的问题,也是牵扯到国家管理层的问题。只有达到数据共享,我们才能在大数据时代,更好地完成工作,而避免小数据的影响。比如,中山医科大学和美国的一个大学合作,通过人工智能的帮助去观察眼底来发现黄斑变性。这也促成了人工智能对不同大数据的学习。同样地,人工智能也可以帮助我们分析基因组。

五、破解人类遗传密码 精准医学创新机遇无限

刚才讲到,关于精准医学,我们有太多事没做,其中最为重要的就是那97%还没被人们认识的遗传密码,就象征着无限的创新机遇。虽然这是一个非科学的词,无限的是不对的,因为遗传密码是有限的,但这种说法表明了那97%遗传密码为我们提供了太多太多创新机会。所以,我们老是讲创新,其实只要去分析人的遗传密码,就有很多的机会。

97%的遗传密码,有多少基因?我们认识的3%就有25000个基因,那97%里像蛋白一样的元件约有25万,是那3%的十倍。而从1900年到现在,人类仅对遗传密码中3%的内容做了研究,就造就了50个以上的诺贝尔奖获得者。那现在的97%呢?

(根据宣讲家网报告整理编辑,

未经许可,不得印刷、出版,违者追究法律责任)

责任编辑:王瑱校对:李天翼最后修改:
0

精选专题

领航新时代

精选文章

精选视频

精选图片

微信公众平台:搜索“宣讲家”或扫描下面的二维码:
宣讲家微信公众平台
您也可以通过点击图标来访问官方微博或下载手机客户端:
微博
微博
客户端
客户端