如何利用人工智能推动数据中心转型?

浏览科技新闻头条,你就会不由自主地认为人工智能(AI)即将改变几乎所有行业。然而,通常情况下,这些故事描绘的人工智能驱动的颠覆仍然是假设的。而对于运营世界上最大数据中心的组织来说,转型已经开始。

生成式人工智能(GenAI)应用对性能的超高要求及其爆炸式增长,正在将当前的数据中心网络推向极限。为此,超大规模企业和云服务提供商正争相添加数千个图形处理单元和其他硬件加速器(xPU),以扩大人工智能计算集群。

连接它们需要网络以前所未有的规模提供高吞吐量和低延迟,同时支持更复杂的流量模式,例如微突发。数据中心运营商不能像过去那样,简单地通过增加更多机架和光纤设备来满足这些需求。无论是否准备好,他们别无选择,只能重新构想数据中心架构。

新兴的AI优化数据中心结构将会是什么样子?它们将使用哪些接口技术,以及它们将如何影响800-Gbps传输和下一代以太网的市场接受度?数据中心运营商目前正在研究这些问题,但即使在早期阶段,我们也开始得到一些答案。

应对人工智能网络挑战

预计每两年,人工智能应用流量将增长10倍,人工智能集群规模将增长4倍。这种增长部分源于人工智能应用的普及,但很大一部分源于AI模型本身日益复杂,以及随之而来的xPU到xPU通信的超大规模。

为了理解其中的原因,我们可以回顾一下人工智能工作负载的实际含义。基本上,AI集群必须支持工作负载处理的两个阶段:

● 模型训练涉及摄取大量数据集来训练人工智能算法来寻找模式或建立关联。

● 人工智能推理需要人工智能模型将其训练应用于新数据。

这两个阶段都不会对主要用于数据采集的前端接入网络产生重大的短期影响。然而,在后端集群中,密集的AI训练和推理工作负载需要一个单独的、可扩展的、可路由的网络来连接数千甚至数万个xPU。

许多云服务提供商已经在努力实现当前AI工作负载的TB网络阈值。随着人工智能模型的复杂性每三年增长1000倍,在不久的将来,他们可能需要支持具有数万亿个密集参数的模型。为了满足这些需求,数据中心运营商需要提供以下功能的网络结构:

极高的吞吐量:人工智能集群必须能够处理极其计算和数据密集型的工作负载,并并行支持数千个同步作业。特别是AI推理工作负载,每个加速器产生的流量比前端网络多5倍,需要的带宽比前端网络多5倍。

极低延迟:AI工作负载必须通过大量节点,因此系统中任何一点的过高延迟都可能导致严重延迟。当前AI工作负载处理中约三分之一的时间用于等待网络。对于许多实时AI应用,此类延迟可能导致用户体验不佳,甚至导致应用无法使用。

零数据包丢失:当网络尝试缓冲或重新传输丢失的数据包时,数据包丢失可能是造成延迟的重要因素。这对于AI模型训练来说是一个大问题,因为在接收到所有数据包之前,工作负载操作甚至无法完成。

大规模可扩展性:为了支持更先进的人工智能应用,模型训练和其他分布式工作负载,必须能够有效扩展到数千个节点上的数十亿个参数。

总的来说,这些要求强调了后端AI基础设施需要新的横向扩展叶和脊架构。使用数千个xpu的中等规模AI应用可能需要带有AI叶子层的机架级集群。连接数万个加速器的最大人工智能集群将需要具有可路由结构和人工智能叶脊的数据中心规模架构。

人工智能市场不断发展

关于人工智能的最大悬而未决的问题之一是新兴应用将如何影响800G以太网等下一代接口技术的采用。这也是一个正在展开的故事,但我们开始对市场将如何发展有了些许了解。

由于前端数据中心网络将在很大程度上遵循传统的升级时间表,预计到2027年,800G以太网将占前端网络端口的三分之一。然而,在后端网络中,运营商的迁移速度要快得多。在那里,800Gbps接口的采用率将以三位数的速度增长,到2027年几乎涵盖所有后端端口。

我们也开始了解运营商将使用哪种接口技术。预计在可预见的未来,大多数运营商将继续在前端网络中使用以太网。后端网络将更加混杂,因为运营商会权衡熟悉、经济高效的以太网与专有InfiniBand(功能完善的网络通信系统)的无损传输能力。一些针对无法容忍不可预测性能的AI应用的运营商将选择InfiniBand。其他运营商将结合使用以太网和新协议,以及每个流拥塞控制,以实现低延迟无损流。还有一些运营商将同时使用这两种协议。

展望未来

目前,对于最佳AI集群大小、接口类型或高速接口迁移路径,还没有单一的答案。对于特定运营商来说,正确的选择取决于多种因素,包括他们计划针对的AI应用类型、这些工作负载的带宽和延迟要求以及无损传输的需求。但考虑因素不仅仅是技术因素。运营商还需要考虑他们是否计划在内部支持密集的模型训练工作负载还是将其外包,他们对标准化技术还是专有技术的偏好,对不同技术规划图和供应链的适应程度等等。

无论运营商如何回答这些问题,有一个事实已经很清楚:鉴于人工智能应用的发展速度如此之快,适当的测试和验证比以往任何时候都更加重要。验证标准合规性、互操作性以及定时和同步的能力,是快速迁移到下一代网络接口和架构的必备功能。幸运的是,测试和仿真工具正在与人工智能一起发展。无论未来的人工智能数据中心是什么样子,业界都将准备好支持它们。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-05-30
如何利用人工智能推动数据中心转型?
生成式人工智能(GenAI)应用对性能的超高要求及其爆炸式增长,正在将当前的数据中心网络推向极限。为此,超大规模企业和云服务提供商正争相添加数千个图形处理单元和其他硬件加速器(xPU),以扩大人工智能计算集群。

长按扫码 阅读全文

Baidu
map