多数据中心训练:OpenAI、Google、Anthropic三家野心勃勃

【编者按】大模型竞争的背后也是基础设施的竞争。随着大模型规模越来越大,单体数据中心所能承受的训练量逐步达到临界值,未来多数据中心训练成为趋势。大模型三巨头OpenAI、Google和Anthropic均在布局多数据中心训练,Semianalysis对三巨头多数据中心训练的情况进行了分析,以下是具体内容。

由于Scaling Laws不断改进,当前的人工智能基础设施愈发难以满足需求。像OpenAI、Google Gemini等领先的前沿人工智能模型训练集群今年已扩展到10 万个 GPU ,并计划到 2025 年将超过 30 万个 GPU 集群。考虑到建设时间、许可、法规和电力可用性等物理限制,传统的同步训练方法单个数据中心站点的大型模型已达到临界点。

Google、OpenAI 和 Anthropic 已经在执行相关计划,将其大型模型训练从一个站点扩展到多个数据中心园区。谷歌拥有当今世界上最先进的计算系统,并率先大规模使用了许多关键技术,这些技术直到现在才被其他公司采用,例如机架级液冷架构和多数据中心训练。

Gemini 1 Ultra 在多个数据中心进行了培训。尽管他们拥有更多的 FLOPS,但他们现有的模型仍落后于 OpenAI 和 Anthropic,因为他们在合成数据、强化学习和模型架构方面仍在追赶,但即将发布的 Gemini 2 将改变这一现状。此外,到 2025 年,谷歌将有能力在多个园区进行千兆瓦级的训练,但令人惊讶的是,谷歌的长期计划并不像 OpenAI 和微软那么积极。

大多数公司才刚刚引入采用 Nvidia GB200 架构的高密度液冷 AI 芯片,预计明年产量将达到数百万颗。另一方面,谷歌已经部署了数百万个液冷 TPU,占液冷 AI 芯片容量超过 1 GW。谷歌的基础设施与其竞争对手之间的差异肉眼可见。

上图所示的人工智能培训园区已拥有接近 300MW 的电力容量,明年将增至 500MW。除了规模庞大之外,这些设施还非常节能。我们可以在下面看到大型冷却塔和集中设施供水系统,水管连接三座建筑物,能够排出近 200 兆瓦的热量。根据最新的环境报告,该系统允许 Google 全年大部分时间无需使用冷却器即可运行,从而在 2023 年实现 1.1 PUE(电力使用效率)。

虽然上图仅显示了设施供水系统,但水也通过直接到芯片系统输送到机架,液-液热交换器将热量从机架传输到中央设施供水系统。这种非常节能的系统类似于 Nvidia GB200 的 L2L 部署 - 在我们的GB200 深入研究中详细描述。

另一方面,微软当今最大的培训集群(如下所示)不支持液体冷却,并且每栋建筑的 IT 容量降低了约 35%,尽管建筑 GFA(总建筑面积)大致相似。已发布的数据显示 PUE 为 1.223,但 PUE 计算对风冷系统有利,因为服务器内部的风扇功率没有得到正确考虑 - 对于风冷 H100 服务器来说,这是服务器功率的 15%+,而对于风冷 H100 服务器来说,PUE 计算为 <5%液体 DLC 冷却服务器。因此,对于提供给芯片的每瓦特,微软需要额外约 45% 以上的功率用于服务器风扇功率、设施冷却和其他非 IT 负载,而谷歌则接近每瓦特 IT 功率约 15% 的额外负载。叠加 TPU 的更高效率,情况就变得模糊了。

此外,为了在沙漠(亚利桑那州)实现良好的能源效率,微软需要大量的水 - 用水效率 (L/kWh) 为 2.24,远高于集团平均值 0.49,谷歌的平均值略高于 1。用水量增加引起了媒体的负面关注,他们被要求为该园区即将建设的数据中心改用风冷式冷水机,这将减少每栋建筑的用水量,但会进一步增加 PUE,从而扩大与 Google 的能效差距。在未来的报告中,我们将更详细地探讨数据中心的工作方式和典型的超大规模设计。

因此,基于现有的数据中心参考设计,Google 拥有更高效的基础设施,并且可以更快地建造兆瓦,因为每栋建筑的容量提高了 >50%,并且每个 IT 负载需要承包的公用电力更少。

谷歌的AI训练基础设施

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-09-07
多数据中心训练:OpenAI、Google、Anthropic三家野心勃勃
多数据中心训练:OpenAI、Google、Anthropic三家野心勃勃

长按扫码 阅读全文

Baidu
map