运筹新数据,中山大学精准医学中心的新存储之道

什么叫精准医学?

百科是这样定义的:精准医学(Precision Medicine)是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。

定义可能过于学术化,不易于理解,来看看现实中经常遇到的例子:A和B同时患有某种肿瘤疾病,同样的药物对于A有效,但对于B却没有效果,反而会影响到B的病情;C和D患有不同肿瘤疾病,却通过同样的药物让病情得到极大缓解。类似情况在癌症、肿瘤等疾病领域经常出现,个体因为遗传基因、所处环境和生活方式的不同,在治疗反应性上存在着很大的差异。

精准医学的出现,改变过去“一刀切”的治疗方法,通过整合基因组学、蛋白质组学、代谢组学以及相关环境与生活方式等大数据信息,为患者精准制定最有效治疗方案。事实上,从最早的经验医学到循证医学,再到如今的精准医学,医疗模式走向数字化、精准化已成必然趋势。

要实现精准医学,先决条件在于构建一个巨大的“疾病知识网络”,其中关键在于数据和大数据平台:数据越丰富、维度越全面,意味着治疗方案的决策正确性就越高;大数据平台性能强、稳定性高、可靠性出色,则可以支撑起整个精准医学的长期研究。

那么,精准医学的业务需求有哪些特点,数据特征情况如何,对于大数据平台建设又有哪些核心诉求?作为中国精准医学发展的先行者,中山大学精准医学科学中心自筹建伊始就确定了建立医学大数据中心,以大数据平台作为核心基础设施,来采集、存储、管理和利用数据,为精准医学发展打了个样。

一个影响未来五年的选择题

从2015年起,中山大学精准医学科学中心开始筹建,首先需要面临三件大事:成立样本库、建立医学大数据中心和搭建精准医学实验技术平台。如果从数字化的角度来看,成立样本库相当于构建起一个医疗相关数据集合库;建立医学大数据中心则是为了采集、存储、管理整个数据;而精准医学实验技术平台负责数据价值最终的输出。

在三件事情中,医学大数据中心的建设虽然是最底层范畴,却属于新基建中典型的创新基础设施,起到支撑起整个科学研究运转的关键作用。中山大学精准医学科学中心在建设医学大数据中心时,面临着架构的选择,“第一个是超融合架构,另一个则是采用存算分离架构。”中山大学精准医学科学中心生物医学大数据平台高级工程师肖华锋如是说,“架构的选择关系着未来五年医学大数据平台能否有效支撑起精准医学业务研究。”

中山大学精准医学科学中心生物医学大数据平台 高级工程师肖华锋

彼时的超融合正是基础架构领域冉冉升起的明星,受到了业界、用户们的广泛关注,凭借简化的架构、强大的并发性能以及便捷的管理等优势,被认为是基础设施建设的首选。但是,中山大学精准医学科学中心经过对精准医学数据类型、业务特征以及未来应用规划进行仔细和反复的调研之后,最终选择了存算分离架构来构建医学大数据中心。

为什么会舍弃超融合,选择存算分离的架构?肖华锋解释道:“当时决策原因有两点:一是成本,当时超融合成本高,每个节点必须配置SSD,加上License费用,采购成本较高;第二则是从场景适用上考虑,精准医学科学中心场景中,存储需求增长速度远超过计算,超融合扩展是计算与存储等比例扩展,存算分离架构反而会带来更加灵活的扩展方式。”

那么,医学大数据中心采用存算分离架构之后,真实情况会不会出现“理想很丰满,现实很骨干”的窘境?

让理想照进现实

从2016年开始,中山大学精准医学中心开展生物医学大数据平台工作,核心是建成数据汇交、清洗整合、存储管理、共享交换、隐私保护、开放共享的医学大数据和生命组学数据两大数据库,并开展医学大数据互联共享工程,建立数据标准体系和安全体系,实现患者医学数据跨系统/区域互联互认、数据共享工作。

“中山大学精准医学中心生物医学大数据平台真正意义上把附属医院的数据和中心实现互联互通,并实现了数据交互和存储。”肖华锋介绍道,“不过,数据增长的确是太快啦。”

建设之初,生物医学大数据平台规划了浪潮500TB集中式SAN存储来承载精准医学医学大数据平台的检索、360随身档案系统等核心业务应用,目前使用近半;规划1PB 浪潮分布式存储AS13000来存储海量影像数据,随着业务数据的采集量的增加,不到3年时间,中心的影像存储已经扩展到了2PB。

浪潮存储产品

在有海量存储为数据增长带来的容量挑战兜底之后,如何应对数据应用带来的挑战又是一个难题。“中心的数据在没有科研任务的时候基本都是冷数据,而当课题介入,研究人员需要检索和分析数据时,往往周期又很长,可能长达半个月。此时,又希望数据是热的。”肖华锋介绍道。好在浪潮存储过去四年一直都平稳运行,在容量和性能上都满足了需求。

未来需要新存储之道

随着生物医学大数据平台和生物样本库逐渐完善,精准医学相关研究与业务开始步入快车道,医学大数据中心在存储上未来又面临着新的诉求与挑战。

首先是数据的增长速度和增长量会比以往还要大,尤其是生物样本库建好之后,中山大学精准医学科学中心的多组学研究平台将以此构建起来,包括代谢组学、基因组学等,这些应用的上线与加码将进一步带来数据爆炸性的增长。肖华锋坦言:“中心的三个基础平台、两个研究平台和一个应用平台整体布局逐渐完善之后,预计存储一年扩展10P将会成为一种常态。”

另外,生物医学大数据平台基于人工智能相关的医学研究正在迅速增加,对于存储容量和性能提出更高挑战。

“中山大学精准医学科学中心是当下用户对于存储容量和性能诉求的一个典型代表。”浪潮存储资深架构师叶毓睿如是说:“面对一个数字化的智慧时代加速到来,浪潮提出了新存储之道,让存储朝着EB级容量、亿级IOPS、TB级带宽等新能力加速演进,来满足用户不断增长的需求。”

肖华锋与叶毓睿接受大数据在线采访

其次,中山大学精准医学科学中心医学大数据中心还将面临着新旧设备混用、不同厂商设备混用的情况,加上其数据量不断提升,设备数量也会随之增加,如何发挥各种设备的性能以及如何运维管理各种设备就成为极大的挑战。肖华锋直言:“我们中心运维人员很少,医学数据类三级等保对运维又有着极为严格的要求,迫切需要智能运维技术来减轻压力。”

事实上,存储融入AI技术加速走向智能化正在成为趋势。存储根据业务负载、运维管理等数据特征,进行不断的学习与优化,从而提供更加精准的预警信息和执行动作,让自身运维与管理走向智能化。叶毓睿介绍:“以浪潮存储为例,iTurbo智用引擎可以通过智能IO感知、智能多路径、智能数据组织、智能资源调度四大核心技术为业务应用提速;而智能统一存储管理平台InView则提供了性能容量预测分析、磁盘故障预测与定位等一系列智能化功能,规避硬件故障带来的风险和损失,有效降低运维压力。”

总体来看,精准医学依然处于起步的初期,中山大学精准医学科学中心作为先行者,对于医学大数据中心的建设有着深刻的认知,并且在架构选择上做出了明智的选择。未来,随着精准医学研究的不断深入,中山大学精准医学科学中心对于衍生出来的新存储需求与挑战也有着清晰的判断,其精准医学研究有望开启新局面,值得精准医学的同仁借鉴与学习。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2020-11-05
运筹新数据,中山大学精准医学中心的新存储之道
肖华锋解释道:“当时决策原因有两点:一是成本,当时超融合成本高,每个节点必须配置SSD,加上License费用,采购成本较高;第二则是从场景适用上考虑,精准医学科学中心场景中,存储需求增长速度远超过计

长按扫码 阅读全文

Baidu
map