文/穆楠(本文首发百度百家)
抽烟为社么增加肺部细胞变异率?用简单IT方式来讲,是你生命程序那段代码被黑客给黑了——黑客黑的概率会随着环境因素不同而变化,如果经常抽烟,如果经常生活在不好的环境里,受到各种各样病毒感染,你的"生命程序"就可能被黑。而一个肿瘤细胞发生到你最后你可以用CT扫描能查出来,平均要15年。
这是22日在深圳IT领袖峰会上华大基因首席执行官王俊的一段发言,在演讲的过程中中,王俊摒弃了医学专业名词,试图用IT人都能理解的“黑客”、“代码”等词来解释为什么生命是“数字化”的,我们又该如何去理解生命、甚至防治疾病,他同时预测,在2019年或许可以实现免费测序个人的全部基因组,这或许对于每个人的健康有些重大意义。
下面根据王俊的实录,总结了6与我们最为相关的话题,包括生命的编程、“源代码”的异同、疾病的根源、利用数据挖掘能治疗疾病等。(注:在原文的基础上有所删节)。
1、生命能够“被编程”?
当我们讲数字化的时候,讲计算机,讲IT,习惯于以硅为体系。但是在讲到生命的时候是以碳为体系。生命的基础是碳,生命是数字化的。它能够储存吗?能够编程吗?能够用不同的程序改变来实现不同的生命形式吗?可以做克隆吗?
答案当然是行的——我们是很容易做克隆的。它能存储吗?能,为什么能那么简单从一个羊身上提一个细胞变成另一个羊呢?因为那个羊的细胞储存了所有羊的生命程序。一个巴掌大的DNA可以储存多少年呢?事实上可以达到上亿年的储存时间,最起码可以上百万年。DNA是可以存储的。
他能够计算吗?当然能。因为计算和编程最核心基本单位是基因,基因是生命体最基本构成单位。我们每个人身上蕴藏所有信息组合就是一套生命信息基本程序,这套基本程序就是生命的语言。
它的语言怎么形成的呢?在最开始的时候,就像每个程序员写出一个功能模块希望所有人都用他这个功能模块一样,在生命体里形成一些基因、一些蛋白质、一些小分子,基因、蛋白质、小分子也希望不断扩张自己,在不断扩张自己同时,其实在美国有一本书非常出名,整个不断过程就是不断复制、不断扩张、不断延展,有时候发现一个基因并不够用,可以和其他基因一起合作,两个基因、三个基因一起合作更好的时候,当一堆基因合作更好的时候,就形成个体。
2、生命的“源代码”为何不同?
我们人身上有2-3万个基因,水稻有5万多基因,不同物种有不同基因,比如我们现在看到一个酵母菌用4000个基因,所有不同基因组合形式不同的生命程序,不同生命程序就形成你这个个体与周围环境适应。检查这套程序到底好用不好用的唯一标准——
就是你这套程序能不能活下去?传播更多后代。
当你选择传播更多后代的这套程序就叫做可以适应于这套环境的生命语言。所以我们看见所谓的达尔文进化学说、适者生存都是这个基础上建立,我们每个人更基因信息的载体,每个人跟微小虫子相比都发现了相似性,很多基因从那儿传到我们身上。对于个体来说也是一样的,每个人一套生命程序也是不一样的。
举例来说,为什么西藏人可以高山适应?为什么我们上了高原有非常强的高原反应,是因为身体一套程序没有写进高山适应的基因,藏族人有一套基因,有这个基因的人群可以在高原体系上没有反应,像我们在上面就不行。在汉族人体系里就只有5%人有这个基因,而藏族人达到95%。这样的东西不仅仅单纯存在在西藏特别复杂极端的环境里,还有很多东西跟饮食相关。比如南方傣族人因为在祖先经常吃槟榔,所以体内基因很多跟槟榔适应。等等。
为什么西藏人跟汉族人不一样呢?当我们考虑一个精子、卵子结合的时候,他发生了重组,每一代当中,你孩子和父母之间有100个基因突变,这些基础就形成不同生存策略,环境在时时刻刻变化、基因在时时刻刻变化,基因组是预测程序。你身上基因是因为你祖先上千年、上万年不断学习、进化,对你后来有可能遇到的环境的预测。你体内基因不会告诉你去不去高原,但是一定会告诉你去完高原会有什么反应。
有人说,如果你做真正很好的遵循基因告诉你的事情,你可以活到150岁,但是为什么活不到150岁?因为你会得各种各样的病,这些病从年轻的时候开始一直到年老都有关系,而这些病跟基因有什么关系、或者跟环境、跟数字化、跟IT、BT有什么关系呢?
3、疾病就是基因出现了bug?
基因里面的毛病有点像写程序的时候出了一个bug,出了bug,基因程序运行不了,在有时候就出现很严重的问题。
比如各种各样罕见疾病。有罕见疾病的一般生存周期都非常短,我们有各种各样例子,这种罕见疾病听起来非常罕见,但是加起来一点都不罕见,中国有大于5.6%的孩子出生有各种各样的出生缺陷。生命程序不断试代码、试代码过程中不断试错,当然每一个错误并不是代表新的往前演化的可能。
当孩子出身之前,我能不能做一些检测,早点发现有什么问题?但需要先查一下你的父亲、母亲有没有基因突变,如果有,你们生孩子概率有多少,如果这样的话,以后就不要配八字了,谈恋爱结婚之前先配一下基因,看生命基因程序是不是匹配。
怀孕两到三个月之内可以对孩子进行完整基因检测,尤其是针对非常罕见的基因性疾病,通过这些筛差可以达到出生前防控。比如,中国耳聋发生率很多是因为错用抗生素,如果体内基因不能受链霉素这个抗生素,一下就耳聋。但如果早一点知道他得各种各样的心脏病、耳聋,包括自闭症风险,我们是不是可以早一点干预?是可以的。我们能不能治呢?除了用一个非常可变的信息看这些东西之后,我们又有一个非常疯狂的想法——
4、利用数据挖掘能治疗罕见病?
能不能通过大数据挖掘发现一些罕见病真正解决方案呢?答案是可以的!
我们(华大基因)有一个计划,搜索了100万人基因数据,寻找那些单纯从基因校对来讲他应该单基因疾病,但是非常健康的人,这些人我们叫超级英雄——他们体内有非常明确的致病基因,但是非常健康,为什么?因为体内有另外一套基因保护他。就像程序我一段出现bug,但是有另外一段修复,就非常健康。如果找出那一段是什么,也许可以找出罕见性疾病的药物。
再往下走是肿瘤,很多人面对肿瘤威胁,肿瘤是你生存过程中由于环境因素影响,你的基因程序在变异,所有细胞都来源于第一个细胞,受精卵细胞,从那个细胞开始每次都会引发程序变化。不同环境影响会导致程序非常大不同——比如抽烟增加肺部细胞变异率。用简单IT方式来讲,是你生命程序那段代码被黑客给黑了。黑客黑的概率会随着环境因素不同而变化,如果经常抽烟,如果经常生活在不好的环境里,或者受到各种各样病毒感染,可能程序被黑。
怎么办呢?其中有可能一个细胞发生被黑了,没有关系,有人说我身体有上亿个细胞。但是如果一个细胞被黑了,他很有可能获得比其他细胞更强的适应性,他可以不断扩张。从一个肿瘤细胞发生到你最后你可以用CT扫描能查出来,平均要15年。也就是15年内体内有肿瘤细胞你不知道,我们能不能早点发现他?答案是可以的,因为所有细胞最终都要游离到血液里,我们通过非常 的基因检测可以看到你体内有没有肿瘤细胞。
5、如何用基因工程治疗肿瘤?
如果得了肿瘤怎么办呢?每一个人的肿瘤,每一个个体,肿瘤每一个细胞的基因都不一样,你做的事是对所有细胞真正基因监测,而不是简单的手术一切、放疗、化疗,这样的治疗有可能在未来两三年内看到飞速发展。
其实万物都是跟基因有关系。我的体内细胞如果以人为一个整体的话,作为人这个个体的细胞只占人体的细胞的1/10,还有9/10是各种各样的微生物、各种各样病毒,你天天洗两次澡都没有用。你吸收一个半小时候所有细菌都回来了。这些微生物并不是都是坏的,比如微生物体内病源微生物会形成什么影响?所带来影响是非常大的,比如埃博拉病毒、SARS病毒,90%发烧腹泻你根本不知道怎么回事。小于1%微生物可以被培养,你根本没有办法搞明白到底什么让你发烧、什么让你腹泻,你可以所有DNA提取出来,一个小时内就知道到底怎么会感染。早一点这样做,就可以早一点摆脱疾病风险。
还有另外一个事情,高血糖、高血压三高,30年前中国糖尿病发生率0.67%,现在已经接近11%,1/4中国成年人要么得糖尿病、要么要得糖尿病,不可能是基因在过去30年有非常大的改变,是因为饮食变化、环境变化,引发肠道微生物菌群失调,很多疾病都跟这个有关系。
我们应该做的是确保你体内是符合真正健康的菌群体系,最终我们要完成这个生命公式——右边是你表现的状况,身高、体重、各种各样的病理特征、健康与否,中间的公式怎么写呢?相当于我们只知道一个程式的输入端、输出端,中间是怎么编程,毫无所知。该怎么办呢?
答案是大数据,健康大数据取决于把所有输入端、输出端全部计算清楚,如果研究清楚身高基因的关系,需要100万人。要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要100万人。你需要把100万人各种各样信息全部搜集,才能得到生命公式。
6、2019年免费测序个人完整基因组?
1999年华大基因参与了1%人类基因组计划。当时测序需要10亿美金,最近已经降成1万美金,仍然很贵,要搜集100万人的数据仍然很贵,现在可以做到1000美金,我估计明年会推出一个500美金可以测定一个人的完整基因。这就可以搜集基因数据。
什么时候可以免费呢?免费实施的到来事实上在于基因本身的数据价值远远大于产生他的数据所需要的成本。这样一个趋势延续我们认为在2019年左右,5年左右时间我们可以真正达到这样的结果。
为什么讲基因组网络那么重要,如果把每个人数据都连起来,形成基因组网络,将是不可估量,每个人在上面产生数据和支持,基因组是一样的。人因基因组计划,每个人的基因计划,当所有基因组形成网络,当所有病人组合了一个网站,我们就可能有机会把这个基因和病之间的关系搞清楚,在上面会形成各种各样的机会,这些机会、信息和知识是以前我们在没有做甚至一个个人基因组是不可想象的。
最终要做的是需要人工智能来学习,因为这么大的量已经不可能用一个单一模型来解决。而华大已经在做很多事,这些事听起来像天方夜谭,我们做了3000株小米,在同一个地方测定各种各样生长条件,最后看出来他产量是多少、营养成分怎么样、各种各样结果,我们给他进行 学习、人工智能方法,现在给定另外一驻小米,我有90%准确性可以预测他长的怎么样。对健康有这样的能力吗?当我们拥有100万人基因测序的时候,离这样的能力很近。
奥巴马提出一个精准医疗计划,就是要做100万人基因组库,当所有人完成后,我们会有一个水晶球,预测对你未来健康走向预知,而这样的预知很有可能再做一些改变,我们听过3D打印、细胞存储、基因编辑、我们听过合成生物学,喝的啤酒的酵母将不是自然界酵母,而是计算机写出来的,酵母产生的啤酒味道也许比你现在喝的任何啤酒味道都要好。还有,生命信息的存储,我们都叫干细胞,就是年轻时候的生命信息,你不是想年轻吗?在你年老的时候能不能把年轻时候的信息再回到,也许就年轻了。所有像科学幻想的东西都在生命科学界在以飞速方式往前走。
如果真正基于一个所谓人工智能方式、大数据处理方式,能管理健康、掌握预测的程序和健康关系,也许是真正最有意义的。
有关华大基因:华大是全球最大的基因组中心、最大的生物信息中心,其机构遍布60多个国家,同时是国家基因库承办单位,国家基因库存储各样生命信息体。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。