英伟达打破AI推理性能纪录:DeepSeek-R1模型创满血世界纪录,AI时代再提速

英伟达打破AI推理性能纪录:DeepSeek-R1模型创满血世界纪录,AI时代再提速

随着人工智能(AI)技术的飞速发展,英伟达作为全球领先的计算公司,再次以其强大的技术实力打破AI推理性能的世界纪录。在近日举行的 NVIDIA GTC 2025 上,英伟达推出全新的 NVIDIA Blackwell DGX 系统,以其卓越的DeepSeek-R1模型推理性能引领业界潮流。

DeepSeek-R1 模型作为英伟达新一代的大模型推理技术,其满血吞吐量达到了每用户每秒超 250 token,系统最高吞吐量突破每秒 3 万 token。这一惊人的性能提升,得益于英伟那最新的 Blackwell Ultra GPU 和 Blackwell GPU 的强大算力,以及英伟达在软硬件方面的卓越整合。

Blackwell DGX 系统的单节点配置采用了 DGX B200(8 块 GPU)与 DGX H200(8 块 GPU),测试参数依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token。这种配置下的并发计算精度达到了 FP4 和 FP8 精度,这使得 DeepSeek-R1 模型在推理时的性能表现更为出色。

与 Hopper 架构的模型相比,Blackwell 架构与 TensorRT 软件相结合,实现了显著的推理性能提升。英伟达表示,通过这种方式,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 在内的模型,已经提供了超过三倍的推理吞吐量提升。

值得注意的是,在对这些模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失,这无疑证明了英伟纳在量化技术方面的领先地位。

AI时代的发展离不开高性能计算设备的支持,而英伟达的Blackwell DGX系统的推出无疑为AI时代的发展注入了新的动力。随着AI技术的广泛应用,各行各业对高性能计算设备的需求也在不断增长。Blackwell DGX系统的推出,不仅满足了这一市场需求,同时也为AI时代的进一步发展奠定了基础。

总的来说,英伟达的Blackwell DGX系统的推出,无疑将为AI时代的进一步发展带来积极的影响。通过不断的技术创新和突破,英伟达将继续引领AI领域的发展,为全球用户提供更高效、更可靠的计算解决方案。

在未来的发展中,我们期待看到英伟达在AI领域的更多突破和创新,为全球用户带来更多便利和价值。同时,我们也期待着AI技术在更多领域的应用和发展,为人类社会带来更多的可能性。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-03-19
英伟达打破AI推理性能纪录:DeepSeek-R1模型创满血世界纪录,AI时代再提速
英伟达打破AI推理性能纪录:DeepSeek-R1模型创满血世界纪录,AI时代再提速 随着人工智能(AI)技术的飞速发展,英伟达作为全球领先的计算...

长按扫码 阅读全文

Baidu
map