AI大模型时代，为什么NVIDIA的系统方案独宠外置专业存储？

上两周刚刚召开的NVIDIA GTC 2024大会，已经成为IT业界影响力最大的会议。与会人员超过17000人，规模超过当年乔布斯的苹果发布会。在会上，NVIDIA发布了新的芯片、软件和方案，展示了在AI时代的绝对霸主地位和庞大的野心。

实际上，黄（仁勋）教主已经掩饰不住NVIDIA的野心了：在GPU市场占有率超过80%的NVIDIA，还发布了数据中心整体解决方案，力图主导这个超过1万亿美元的庞大市场。

不过，即使强如NVIDIA，在构建AI系统的时候，仍然选择了标配外置专业存储。虽然HBM（高带宽内存）取代了DDR内存，但是外置专业存储一直独立存在。就像当年雄霸天下的Oracle数据库，同样也是标配外置专业存储（EMC、华为等）。

注：2024 NVIDIA GTC大会期间，NVIDIA开设存储专场panel座谈，邀请业界头部存储厂商及大客户，共同研讨如何通过存储来解决AI时代面临的一系列挑战。

为什么存储对AI如此重要？NVIDIA为什么要广泛的与主流存储厂商合作，而不是自己做存储？我们将逐层展开，拨云见日，探寻背后的真相。

一、NVIDIA不仅仅想卖芯片，其野心是卖整个数据中心方案，以GPU+CUDA为核心构建了AI数据中心全栈架构，其中标配外置专业存储。

我们都知道，数据中心IT堆栈中，计算、存储和网络是三大核心组件。

在计算侧，NVIDIA通过自研GPU和DPU来加速取代CPU算力；网络侧，NVIDIA通过收购Mellanox，加速推广IB网络；存储侧，广泛与主流存储厂商（DELL EMC、NetApp、Pure Storage、DDN、IBM、Vast Data、WEKA……）合作，从OVX（数据中心推理）、DGX basepod（企业AI训练集群）到DGX superpod（大规模训练集群）再到DGX supercomputer（超大规模训练集群），不变的是里面都标配外置专业存储。

二、为什么在NVIDIA的方案架构中，外置专业存储是“必配品”？

1. AI和传统应用不同，传统应用主要是产生数据并存下来；而AI自身新产生的数据很少，主要是利用现有的存量数据，即“喂数据进去，吐出来的是训练好的大模型和Token（标记）”。

2.缺数据，无AI。数据的质量决定了AI的高度。AI需要大量的高质量数据从哪里来？最普遍的做法是首先获取大量的互联网公开数据作为基础性输入，然后最核心的还是结合企业内部的数据，包括核心生产数据和历史存量数据对模型进行训练。

3.当今企业80%以上的数据仍存放在数据中心，其余少量在边缘和云上。在数据中心，专业的外置存储是企业数据的核心载体。因此，只有将NVIDIA AI系统与外置存储相连，才能快速形成数据的闭环，支撑AI大模型的训练。而在大模型完成训练，面向行业应用落地的时候（如RAG推理），AI应用必须与生产存储相连接，直接调用企业生产数据。因此，无论在大模型的训练阶段，还是行业应用推理阶段，AI系统都必须配套外置专业存储，才能让企业数据，特别是生产数据直接变成AI的“燃料”。

4.随着AI大模型的加速迭代，参数规模和数据量成万倍的增长，如何快速做好EB级数据的加载和准备，把数据快速喂给大模型成为提升训练效率的瓶颈之一；同时，在训练过程中需要不断保存checkpoint，以便因故障中断/训练效果不达预期时重新训练，对checkpoint的保存和读取速度也极大了影响了训练效率。而外置存储从诞生之初就是为了解决数据的保存和读取问题，外置存储的一小步性能优化，对AI系统的训练效率有巨大的提升，这也是NVIDIA系统选择外置存储的一大原因。

5.而在行业应用推理阶段，由于场景众多、AI新应用层出不穷，如何为解决数据pipeline成为关键问题。主流存储厂商均提供跨边缘、数据中心和云的数据流动、统一管理和数据加速功能，简化了AI应用对数据的访问和处理过程，让大模型应用部署和运行更加简单高效。

三、既然存储这么重要，为什么NVIDIA自己不做存储，或者像收购Mallenox一样直接收购一家存储厂商，而是坚定的与主流存储厂商开展合作？

1.IT产业，全栈通吃不是主流，没有一家厂商可以搞定全部的客户需求，封闭架构无法持久，分层合作才是关键。NVIDIA瞄准的是整个AI数据中心市场，但是它本质上是一家计算平台公司，通过定义好系统架构，开放合作，能够满足不同阶段的多样化客户需求，与伙伴一起共同建设面向未来的数据中心。

2.NVIDIA如果自己重新做一套存储产品，本质上也无法取代客户当前的生产存储，也无法有效利用客户的生产数据。NVIDIA想要的是掌控算力平台，当前联合外置专业存储厂商是上策。

3.以存储为代表的传统IT厂商，在企业和运营商客户已耕耘二三十年，有大量的客户基础和数据存量，NVIDIA和存储厂商合作，本质上是把原来以CPU为中心的伙伴拉拢到自己身边，通过联合方案，让存储厂商带着NVIDIA的软硬件一起销售，扩大客户和产品覆盖面；同时，存储厂商具备成熟的企业级交付服务能力，这也是NVIDIA所不擅长的。总而言之，NVIDIA和存储的合作是互惠互利、合作共赢的。

四、对于中国区市场客户的启示

无论客户采用什么算力平台（NVIDIA/昇腾/…），存储绝对不容忽视。NVIDIA的系统无论集群规模大小，均标配外置专业存储。对于中国的客户而言，无论当前的AI集群处于什么阶段（规划中/建设中），我们都强烈建议立即关注存储的配套建设问题，对存储的“小”投入，将带来AI系统效率的“大”提升。

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

AI大模型时代，为什么NVIDIA的系统方案独宠外置专业存储？

下一篇