未来10年的存储创新,就被这个技术承包了

2019年,随着在NVMe技术方面的突破和演进,超大规模数据中心和高性能计算用户很快将从中受益。在后摩尔定律时期,在CPU性能增长放缓的背景下,NVMe技术以及NVMe over fabric技术的发展,将成为推动IT技术创新的新动力。当然,所有这一切背后都是有实际需求在推动。

翻开历史来看,NVMe的发展可谓是非常迅速。2014年,第一批NVMe技术方案还只是服务器上的一个驱动而已,这个驱动负责处理存储访问操作。

如今,许多超大规模数据中心,做高性能计算解决方案的厂商都在节点上测试NVMe。由于NVMe的方案是针对节点规模扩展的,这就带来很高的灵活性,同时还有非常高的性能提升优化空间。

虽然NVMe对于那些需要用到非易失性存储的应用带来了很大帮助,但是,下一阶段NVMe over fabric的带来的影响将更为深远。

以太网的带宽爆炸式增长,100GB/s还有400GB/s之类的似乎也都不远了。存储如果能用上这样的能力,在服务器看来,就像是在本地一样了。

市场上Mellanox,Pure Storage,Excelero都有类似的创新,以太网的方案整体来说都比较简单,这些创新方案的思路就是用简洁的方式来汇集存储资源,虽然是远程访问,但是看起来就像是访问本地存储一样。

降低存储网络复杂度带来的好处非常明显,它有助于打造更大规模存储集群,用更少的资源做更多的事儿。

未来,随着NVMe over fabrics成本大幅降低,NVMe将在技术方案和市场上释放更大的能量。

成本下降,这意味着就可以投入大规模使用了。超大规模数据中心由于采购量大,可以用和SATA相同的价格用上NVMe,对于一般用户来说,多花点钱用3GB/s带宽替代500MB/s的SATA也非常合适。

虽说NVMe的成本会降低,前景一片大好,不过真正想把一个新技术推向市场,起码市场上得有好几个同类方案。大家一起来教育市场,然后才有向传统存储体系架构发起挑战的资格。

NVMe化解传统存储架构的新挑战

在市场上可以看到,Excelero在研究NVMe over fabric方面的技术,Mellanox,Pure Storage还有NetApp也在研究,具体的做法都不太一样。不过,面对实际用户需求,要解决的问题会有许多相似之处。

比如,Excelero有一家欧洲的大型银行客户,这家银行需要跑SAS分析负载,依靠传统方案做一些日常分析的话大概需要四十个小时,由于速度太慢,日常性的报告不能及时提供,以至于影响了欧盟的有关规定。

在这一场景下,单单说不怕浪费,多挂点NVMe盘已经解决不了问题了。

这家银行的方案是,在GPFS上构建SAS网络集群,同一时间可能有八个节点在同一个数据集上工作,数据集是不能分割的,由于这是延迟和带宽敏感型应用,当对一天的数据进行检索的时候,对存储带宽,随机IO性能都提出了很高要求。

Excelero的方案提供的共享资源池正好解决了这一问题,降低了小IO读写的延迟,读写带宽的主要瓶颈也就是网络了。不过,生成分析报告的时间缩短到了6个小时。

Excelero的方案非常有代表性,值得借鉴,足以说明NVMe over fabric的价值点,使得用NVMe over fabric构建的远程存储提供的共享资源池,能利用上像GPFS这样的大规模并行系统。

集群存储的另一种做法是,在每一个主机上都复制一份数据集。这种做法,首先资源开销非常巨大,为了让每份数据都保持一致,所以主机互联的技术经常需要传输大量的指令,效率非常低下,集中共享的存储非常有必要。

类似的,一家名为CMA的公司正在研究用NVMe技术支持Oracle Exadata的集群方案。

NVIDIA的DGX系统能让多个GDX-1同时工作,也是一个集群系统,也有人在思考如何让GDX更好地用上NVMe的能力。

比如,金融领域有时候需要将一个工作负载分散到多台DGX-1上,有的朋友可能会马上想到DGX-1农场,DGX-1农场的问题是只能用SATA盘,如果换成NVMe的话,带宽和延迟将发生非常大的变化。

虽然DGX-2开始支持NVMe了,但是数量非常有限,只能使用机箱里提供的那有限的几块NVMe SSD。

能不能让所有的DGX-2都用到NVMe资源池,让所有的机器都自由访问共享内存呢?这也是个有趣的问题。可能不久后,NVIDIA也会推出类似的方案。

人工智能场景将成为推动

NVMe存储创新的一大动力

人工智能将是推动NVMe over fabric发展的又一大因素。人工智能技术的发展,对于那些做算法回溯测试,还有做医学成像、地理信息系统(GIS)的行业带来了很大帮助。

但是由于训练时候需要处理大量图像,这对于存储带来很大挑战,人工智能的能力受到了限制。

虽然有ResNet这样的基准测试会使用许多小的图片来做测试,让人看到一些性能表现,但在很多时候,真正用的其实有很多大图像。

比如,MRI还有卫星图像的分辨率非常大,图像大小可能是好几兆甚至几十兆,拿这些数据来做训练的话,对存储系统的延迟和带宽要求是非常高的。

在银行的账户交易系统中,也需要扩展集群来处理实时的请求,构建一个集中的资源池来应对随机访问需求。如果是一个几十TB的数据集,不可能在每个主机上复制一份数据并且及时同步数据,唯一合理的做法是搭建一个独立的存储资源池。

简单来说,NVMe之所以将获得飞速发展,核心原因还是需求推动的,那些特定工作负载,还有业务量巨大的公司都必须重新构建基础架构。

如今的IT领域,主流的创新主要来自云和超大规模数据中心领域,新技术很多时候都会在这一领域出现或者发扬光大,NVMe的发展也将随之爆发。

但因为现有IT架构的影响以及新的解决方案的成熟度,想真正在市场上看到NVMe的能力还得再等等。

可以肯定的是,NVMe将带来许多新的突破,这个突破将对IT领域影响深远,是否是影响未来十年的技术也未可知。

【科技云报道原创】

微信公众账号:科技云报道


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-07-24
未来10年的存储创新,就被这个技术承包了
科技云报道原创。 2019年,随着在NVMe技术方面的突破和演进,超大规模数据中心和高性能计算用户很快将从中受益。在后摩尔定律时期,在CPU性能增长放缓的背景下,NVMe技术以及NVMe over f

长按扫码 阅读全文

Baidu
map