构建高性能计算HPC(High Performance Computing)机群可提升业务的运算速度(使其达到每秒万亿次级的计算速度),因此HPC被应用于解决大规模科学问题的计算和海量数据的处理,其中就包括科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等。在HPC场景下,使用关键技术优化混合负载冲突,全方位释放存储性能成了巨大的挑战。
目前HPC应用正从过去的传统科研领域计算密集型,逐渐向新兴的大数据、人工智能以及 学习等方向进行融合和演进。继而,数字时代无论是智能制造、智慧医疗、智慧城市、智能家居,HPC都将成为核心技术。特别是近两年备受关注的人工智能领域,如自动驾驶汽车、无人机、人脸识别、医疗诊断以及金融分析和商业决策等,其核心是大数据支持,HPC成为人工智能模型训练的重要支撑平台。
HPC通过极快的处理速度,获取大量数据进行复杂的运算,实现数据即时分析,达到快速决策的目标。因此,HPC机群对于存储有着较高的性能要求,保证来自多个HPC服务器密集而多样的分析行为。
同时,由于未分析的原始数据会越积越多,并且未来还会有更多的数据需要研究/处理,因此容量和扩展性也是重要的考虑因素。HPC的总体数据最终会达到PB级别,需要超大的存储容量才能完成归档。
在HPC应用环境下,业务软件众多(其中运行的应用算例各不相同),从而导致不同的业务对I/O负载要求不同,其中包括带宽型、IPOS型、元数据OPS密集型、及基于MPI框架的应用需要并行访问同一个文件的并行I/O等。例如,在新兴的AI场景中会牵涉到预处理阶段、训练阶段和仿真等阶段,都对带宽及IOPS有着各不相同的高要求。
在传统的油气勘探典型场景中,假设需要同时满足震资料处理和地震资料解释两种应用场景对IO负载的不同要求,通常需要为其分别配置存储A及存储B,以满足不同的IO负载性能。因此,在HPC应用的场景下,满足高带宽、高IOPS及低时延的混合负载模型是HPC存储面临的巨大挑战。
性能衡量标准
带宽型业务的衡量标准(单位时间内的数据总吞吐量),主要特点有每个I/O大且处理次数少,单次I/O处理时间较长;IOPS型业务性能衡量标准(单位时间内处理的总I/O请求,及每个I/O处理的时长),主要特点是单位时间内I/O请求频度较高,I/O请求量大,且处理时间较短;使用同一个存储设备,在混合负载的情况下主要冲突体现在:CPU调度策略,带宽型业务与IOPS型业务呈现为相反的调度策略,传统技术无法实现带宽型业务与IOPS型业务计算性能的双重保障。
软件栈调度策略要求
混合负载下同样存在软件调用栈处理的逻辑冲突,物理性能瓶颈主要存在网络带宽、硬件带宽及内存带宽上。要想减少性能瓶颈就要通过减少网络转发、减少内存访问实现、降低数据冗余。继而与IOPS型业务产生冲突,在IOPS的应用场景下,性能瓶颈主要集中在CPU算力及软件调用栈 ,需要通过降低I/O请求的放大量,从而降低软件调用栈的 。因此,在同一设备中,既要保障带宽型业务场景的处理性能,又要确保IOPS型业务场景性能,给存储系统的处理逻辑带来了巨大的挑战。
介质访问模型
另外针对不同的业务类型,最佳的访问模型也各不相同。要求I/O越大,通过磁头、柱面和扇区组成的(3D参数)使得磁盘LBA连续度越高,则带宽型业务的性能越高。然而,针对IOPS场景,I/O的大小与磁盘管理的颗粒度越匹配,则性能越高。因此,在混合负载下,主要问题体现在,数据布局如何兼顾I/O不同需求。
柏科数据ISCould分布式存储可采用多维度创新信息技术来解决HPC场景下混合负载冲突带宽机IOPS业务共存问题,分别通过一系列关键技术实现极致带宽性能及IOPS性能。
混合负载性能双优化
通过I/O直通存储技术将前端应用写入的大I/O直通存储到节点的存储层,以减少网络带宽、硬件带宽及内存带宽的带宽放大问题。小I/O则通过RDMA直接内存访问技术,将分散在其他存储节点小I/O进行聚合存储,随即写入到非易失性高速存储介质,可进一步降低CPU的消耗。既保证了带宽型业务中带宽问题,又提升了IOPS的性能。同时采用,分布式纠删技术,对元数据节点进行存储,可通过纠删码算法将原始数据进行编码,不仅保障了数据安全性,同时实现存储空间高可用。
软件栈智能调度
为了进一步实现混合负载下的最佳性能,通过CPU智能分组算法及全方位QoS管理技术,来实现自适I/O大小的软件栈调用能力。软件栈智能调度是通过大小I/O的特点,通过CPU动态分组技术,实现CPU自动归属应用,为不同要求的I/O实行专核专用的策略,保障关键业务运行及IOPS业务快速响应。同时,ISCould分布式存储可智能识别IOPS优先级别,采用全方位QoS管理技术,确保前台优于后台的机制。充分实现混合负载下的极致低时延。
智能处理策略
目前磁盘管理通常采用Write in place的管理方式,这种管理方式在长时间的运行之后,由于数据及部分文件反复创建、重删,会导致传统数据碎片化严重。大I/O写入会被拆解成多个小I/O,使得磁盘LBA连续度越低。通过两次智能处理策略,首先通过智能数据处理技术,可将数据写入连续的磁盘空间中,将无效数据在后台进行垃圾回收。在通过对象组智能平衡技术,对磁盘进行实时监控 、动态计算, 自动调整磁盘空间。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )