华为数据存储两大新品齐发:全面闪存化,全面向AI

·企业级IT 9月27日 近日,在华为全联接大会2024期间,华为重磅发布了两大数据存储新品,一是全新AI存储OceanStor A800,二是新一代OceanStor Dorado全闪存存储。在千行万业积极融入AI、并借助AI重塑业务的关键阶段,这两款产品以Storage for AI助力企业组织通往AI数智时代。

其中,全新AI存储OceanStor A800以长记忆内存新范式全面提升AI大模型训练和推理能力,助力千行万业大步迈入数智时代;新一代OceanStor Dorado全闪存存储旨在以极致性能、极致韧性、AI-Ready的能力,为AI时代高速增长的的企业核心业务提供先进数据存力。

全新AI存储OceanStor A800,以长记忆内存新范式提升AI大模型训推能力

全新AI存储OceanStor A800在AI大模型高效训练能力的基础上,大幅增强推理能力,并在集群性能、新数据范式上有了跨越式提升,呈现出三大特征。

首先,单套AI存储设备支持十万卡级大模型训练。OceanStor A800通过构建前端网卡全共享、控制器与后端SSD盘全互联的技术架构,单套存储设备可支持10万卡级集群全互联。一套OceanStor A800 存储最多可实现与19.2万卡训练集群的静态全连接,性能提升40%,空间占用降低80%。

其次,以存强算,AI集群可用度提升30%。AI训练中断频发是困扰行业的大难题,据统计AI训练中心持续训练的时间最长仅为2.6天,而根据业界某知名公司公开的万卡集群训练数据显示,在54天的训练周期内意外中断419次,更是平均3小时中断一次,导致GPU/NPU必须反复保存CKPT数据。中国移动将华为OceanStor AI存储用于大模型训练,实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,端到端训练效率提升5%,为后续更大规模大模型训练提供了有力支撑。

再次,以存代算,长记忆内存型存储提升推理体验并降低系统成本。在Long context(长上下文)成为大模型推理的必然发展趋势背景下,根据Scaling law,提供足够高的推理算力和中间Token数,可大幅提升推理的准确度。通过专业AI存储,可长期保存Long context及海量中间推理Token,并提供高速访问性能,最大程度提升大模型的逻辑思考和推理能力,实现在帮助大模型推理提升慢思考能力的同时,也帮助大模型将慢思考的结果转变后后续的快思考,让大模型越用越聪明。

OceanStor A800作为业界首款提供长记忆能力的存储,创新性采用多级KV缓存机制,将所有的思考结果持久化保存并高效使用,让大模型推理具备长记忆能力,减少在Prefill阶段的重复计算,客户推理时延降低近八成,单个xPU卡的吞吐量提升约2/3,大幅提升推理体验的同时降低成本。

华为公司副总裁、数据存储产品线总裁周跃峰博士表示,存储的创新是由应用驱动的,上层的应用变化了,存储一定要变化。今天的AI训练系统对数据吞吐量的要求非常大,动则万卡、十万卡使得内部的网络互联、集群的关系也非常复杂,同时当前AI推理的记忆主要发生在内存里,长序列推理难以永久记忆且成本高昂,这些都要求存储行业做出改变。因此华为发布全新的长记忆内存型存储架构产品,去解决行业面临的xPU与存储的带宽不足、算力集群可用度低、推理时延长等挑战。

新一代OceanStor Dorado全闪存存储,加速企业生产核心业务步入AI时代

华为新一代OceanStor Dorado全闪存存储带来了极致性能、极致韧性、AI-Ready三大能力跃升。

在极致性能方面,新一代全闪存软硬件全面升级,智能DPU(数据处理单元)网卡提供数据流和控制流分离能力,打破处理器性能瓶颈,以专用硬件功能卡卸载CPU算力,开启增值特性功能后性能无损。软硬件 协同释放性能,全新升级的FLASHLINK® 智能盘控卡协同算法,达成存储系统亿级IOPS、0.03毫秒低时延,相较上一代全闪存存储产品提升性能3倍,为AI时代高速增长的核心业务数据提供了先进数据存力。

在极致韧性方面,新一代SmartMatrix全局互联架构,容忍引擎、硬盘框、机柜多层故障,单设备可靠性达99.99999%,极端场景下支持8个引擎7个故障时业务仍恒稳在线。此外,新一代OceanStor Dorado支持SAN和NAS全域防勒索,勒索病毒检测率最高达99.99%。通过智能快照关联分析及智能合成技术,保障数据恢复100%可用。

在AI-Ready方面,新一代OceanStor Dorado全闪存存储采用原生块、文件、对象统一存储架构,支持数据库、文件、容器等多样化应用,广泛承载AI时代多样化生产核心数据存储需求。通过AI大模型DataMaster加持的DME数据管理引擎实现对话式运维,并利用大模型技术主动发现异常,运维效率提升5倍。

在华为闪存存储领域总裁黄涛看来,新一代OceanStor Dorado全闪存存储实现了两个重定义,一是重新定义高端存储,实现了3倍的性能提升,7个9的可靠性保障,5倍的运维效率提升;二是重新定义了新的统一的融合协议,把SAN、NAS和对象存储融合到一起,同时保证性能和可靠性不下降,以更好地加速AI时代多样化数据处理的挑战。

全面闪存化+全面向AI,华为数据存储面向AI大模型时代交出最新答卷

公开资料显示,华为数据存储已广泛应用在金融、制造、教育、医疗等多个行业,服务全球26000多家客户,150多个国家和地区,其中全球Top100银行中已有53家选择华为,其一举一动都备受关注。从本次发布的两大新品的特点看,全面闪存化、全面向AI,已成为华为数据存储面向AI大模型时代交出的最新答卷。

一方面,作为高端存储行业的领军企业,更高性能、更低能耗的全闪一直是华为孜孜不倦的追求。恰如周跃峰博士不止一次所说,“中国的存储全闪存比例太低了,太费电”。

市场研究数据显示,今天中国市场的闪存率不足30%,而在美国达到了60%。同时,中国的闪存率不仅仅落后于美国,甚至还落后于新加坡、南非这些小国。所以无论是从客户需求还是从供应链的安全角度看,中国未来的全闪存存储市场都还有大幅度的发展空间。中国市场整个产业界也正在联合起来,驱动整个存储走向全闪化,以实现绿色高质量的发展。

另一方面,作为业界最早提出迈向智能世界愿景的企业,华为认为面向AI时代的IT基础设施应该是存、算、网协同发展。这方面周跃峰博士也不止一次表示,“我们不能只管算,不管存和网”。

众所周知,AI事实上有三大组成部分,即算力、算法和数据。但今天在社会上,算力和算法(包含模型)的热度远高于对数据的关注度。然而,数据的准备在整个AI系统建设里面花的时间要超过40%,这还不包括数据收集的时间。所以,企业拥抱AI大模型,数据得从当下就着手准备,包括协议的归一、数据存放的归一、数据的编织等,并做好数据与xPU算力之间的大带宽高速网络传输,全面AI-Ready,才能事半而功倍,同时确保成本效益。

AI大模型时代,数据是最重要的生产要素,企业整个数据基础设施也必须围绕数据做文章,才能充分支撑AI的训练、推理及应用。数据存储作为核心一环,全面闪存化、做到AI-Ready刻不容缓!


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-09-27
华为数据存储两大新品齐发:全面闪存化,全面向AI
以Storage for AI助力企业组织通往AI数智时代。

长按扫码 阅读全文

Baidu
map