陈润生：基因组、大数据、精准医学（3）_社会_文稿_报告

四、精准医学才刚刚上路

精准医学现在发展到了哪一步？精准医学刚刚上路，相对前沿学术内容，精准医学的发展还有很多困难、很多挑战，所以我们还有很远的路要走。

（一）基因组、转录组中的挑战——基因组中的暗信息

我们测量一个遗传密码的作用有多大？在不久的将来，花100美元，我们每个人都可以测自己的遗传密码。但是集中全世界科学家的努力，我们目前能够精确解读的遗传密码不超过3%，剩下97%我们没读懂。换句话说，我们精准医学的起步点，就是基于我们对遗传密码只知道3%的这样一个点上。那么随着时间的推移，我们了解的会越来越多。当我们对自身的遗传密码的解读达到90%以上的时候，我们就基本上达到“精准”了。

3%是什么？就是我们的遗传密码当中编码蛋白质的那部分，也就是遵循中心法则的那部分、传统意义上造蛋白的部分。也就是说，你现在测量遗传密码，如果肿瘤是由于这3%的突变引起的，那么遗传密码能提供给你很多信息；如果肿瘤是由于97%的突变引起的，那么现在的状态是不能判断的。当然，测一测还是有益的，毕竟对于那97%的研究是不断前进的，过几年就会有新的进展。2010年12月17日的Science（《科学》杂志）评选了人类进入21世纪以后，从2001年到2010年这十年，人类在自然科学领域的十个重要事件。其中，第一个便是“基因组当中的暗物质”。它讲的是，遗传密码大部分是暗的，即暗物质或暗信息，因为我们知道的只有人的遗传密码的极小部分，这就是我们当前理论上认识的疆界。

有人说那97%的遗传密码没有用，但其实那97%如果发生突变，一样会导致疾病。比如，Oncogene杂志在2004年的23卷中就发现97%的遗传密码中的名为PCGEM1的位点，如果发生突变会导致前列腺癌。此外，我们还发现，名为His-1的位点如果发生突变则会导致白血病；名为MALAT-1的位点如果发生突变则会导致非小细胞肺癌；名为H19的位点则扮演着类似于P53蛋白的角色，作为防御机制保护我们远离细胞癌变。所以，有证据证明，那97%的遗传密码参与了我们已知的所有生物过程，是未来非常值得研究的，也是大家所关心的领域。

（二）大数据带来的挑战

1.数据端的挑战

第一个挑战来自于数据源，即人的遗传密码。人的遗传密码是一个大数据，有两个特点：一是增速极快，因为全球的人们都在测量遗传密码，所以这是我们迄今为止知道的增速最快的大数据之一，国际上也有很多的数据库，人们面临着数据存储与分析上的困难；二是数据有误差，信噪比低、缺失值高、错误率高，所以从数据端来讲是有挑战的，比如现在的仪器不只是价钱降得很低，而且产生数据也很快。

发现DNA双螺旋而获得诺贝尔奖的沃森·克里克在测量他自己的遗传密码时，用了两个月，花费了100万美元。这发生在人类遗传密码的相关计划在世界上诞生十年左右的时间。现在，测量一个人的遗传密码的成本从100万美元降到了100美元。大家可以看到，没有哪一个数据、哪个仪器，发展如此之快。

此外，国际研究还有一个动向，那就是微生物组。通过对遗传密码的研究，人们的测序能力有了显著提高，从而可以研究人体内的微生物与疾病的关系。跟我们一起生活的微生物有多少？据统计，常态下，每个人体内大约有1-2公斤微生物。这些微生物与你有着很重要的关系，而现在由于有了大规模测序，它们也可以被我们研究了。进而，我们现在要处理的数据之多，并不完全是因为遗传密码多，而是要解决的科学问题也越来越复杂了。

2.样品端的挑战

虽然数据越来越多，但是要解决一个科学问题而取样，而样品却没有因为数据的增加，变得更容易获取。比如，我们要研究肿瘤，获取肿瘤病人的样品是很难的。要真正地研究，就要建立数学模型。数学模型里面有很多的变量，要研究这个肿瘤的话，其内部变量往往是1000、2000……这就要求这个数学模型要得到有益的解的话，样品数要跟变量匹配。如果说这个模型有1000、2000个变量，而我们取的样品（病人）只有100个，结果就是不可靠的。对此，我们可以通过国家行为来解决，如美国的精准医学计划，变量是1000、2000就测100万个病人，中国的精准医学计划也是要测100万人。

3.疾病相关的复杂网络

我们研究的这些基因之间有着复杂关系。对于一整个生物体来说，不应该孤立地考虑一个基因，而应该考虑基因的网络。这个网络是动态的、有向的、双色的、非线性的。总而言之，对于更为复杂一点的问题，我们只是研究孤立的基因是不够的，还要了解基因和基因之间的相互作用。

4.高度异质化数据的整合

我们要想了解疾病的关系，就要把遗传密码与心电图、脑电图、血糖血脂、CT、核磁等检查信息整合在一起。这就是所谓的不同介质的高度异质化数据的整合。医生在判断疾病时，仅凭组学数据是不够的，一定要跟常规检验的信息结合在一起。

怎么整合？这是一个更加复杂的问题。真正要对一个人做全信息的分析、观察疾病的本质，至少涉及六类数据：一是基础数据，如姓名、性别、年龄、治疗记录等；二是生理、生化检测，如心电、血压、血糖、血脂等；三是影像资料，如超声、核磁、断层、PET等；四是组学数据，如基因组、转录组、蛋白组、代谢组、表观组等；五是处治数据，如用药、手术等；六是环境资料，如微生物、大气、水文、地质、辐射等。

综合考虑所有六类数据，我们就会对一个人作出更加准确的判断。所以，我们在精准医学时代是会产生各种大数据的。对大数据的解析，则要求我们统一分析与疾病有关的范围更广的各种因素。对于如此庞大的数据量，我们可以选择的就是依靠人工智能。人工智能可以完成这六类数据的整合与分析，把高度异质化的数据整合在一起正是它的优势。

5.数据共享

大数据越来越多，如何做到国家层面的数据共享，这不仅仅是学界的问题，也是牵扯到国家管理层的问题。只有达到数据共享，我们才能在大数据时代，更好地完成工作，而避免小数据的影响。比如，中山医科大学和美国的一个大学合作，通过人工智能的帮助去观察眼底来发现黄斑变性。这也促成了人工智能对不同大数据的学习。同样地，人工智能也可以帮助我们分析基因组。

五、破解人类遗传密码精准医学创新机遇无限

刚才讲到，关于精准医学，我们有太多事没做，其中最为重要的就是那97%还没被人们认识的遗传密码，就象征着无限的创新机遇。虽然这是一个非科学的词，无限的是不对的，因为遗传密码是有限的，但这种说法表明了那97%遗传密码为我们提供了太多太多创新机会。所以，我们老是讲创新，其实只要去分析人的遗传密码，就有很多的机会。

97%的遗传密码，有多少基因？我们认识的3%就有25000个基因，那97%里像蛋白一样的元件约有25万，是那3%的十倍。而从1900年到现在，人类仅对遗传密码中3%的内容做了研究，就造就了50个以上的诺贝尔奖获得者。那现在的97%呢？

（根据宣讲家网报告整理编辑，

未经许可，不得印刷、出版，违者追究法律责任）

(根据宣讲家网报告整理编辑，

未经许可，不得印刷、出版，转载请注明出处，违者追究法律责任。)