云计算如何创芯：“逆向工作法”的性感之处

在整个云计算领域，能让芯片规模化的用起来，是决定造芯是否成功的天花板。在拉斯维加斯的亚马逊云科技2023 re:Invent则是完美诠释了这一论调。

亚马逊云科技2023 re:Invent开幕前两个小时，有一场小型的欢迎晚宴，《星期日泰晤士报》南非站记者Arthur Goldstuck谈到：“我们可能会目睹最重要的一场re:Invent，这次亚马逊云科技的技术发布，在未来五年都会是极具意义的。”

参与者们好奇，在生成式AI几乎席卷一切的背景下，一个处于领导者地位的云厂商，将会向外界讲出怎样的人工智能故事？

如果站在未来看当下，生成式AI可能是一场大型马拉松，但亚马逊云科技现在就已经在勾勒出它的地图。在亚马逊云科技CEO Adam Selipsky长达两个半小时的演讲中，一张“生成式AI技术堆栈图”图贯穿了整场。

亚马逊云科技“生成式AI技术堆栈图”（Generative AI Stack）

从上图可见，亚马逊云科技搭建了三层AI堆栈：最底层是用于训练和推理的「基础设施层」，这里包括一些亚马逊云科技的自研芯片；中间层是微调大模型或基础模型需求的「工具层」；最上层是「生成式AI应用层」，这里包括此次新推出的生成式AI助理Amazon Q。

概括而言，亚马逊云科技正在构建一种范式，去尽可能匹配这个时代下的更多客户的更多需求，正如Adam Selipsky所说——“我们在用一种跟传统完全不同的方式探讨生成式AI概念”。

不过，正所谓见微知著，我们决定将「芯片」，作为观察今年亚马逊云科技re:Invent新发布的切入点。

摄于2023 re:Invent一角

十年自研，逆向造芯

很多人了解亚马逊云科技，知道它是全球领先云厂商，构建底层软件的能力非同一般。但大家可能不那么了解的是，亚马逊云科技还是一个在芯片及硬件层有深厚技术底蕴的公司。

早在十年前的2013年起，亚马逊云科技就开始自研芯片，至今已形成了一个芯片全家桶，包括四个系列：

构成云服务技术底层核心的虚拟化芯片Amazon Nitro

通用处理器芯片Amazon Graviton

用于机器学习的“训练”芯片Amazon Trainium和用于机器学习的“推理”芯片Amazon Inferentia

而且实际上，近年来亚马逊云科技一直在年中举办“亚马逊云科技硅芯片创新日”，与产业交流相关创新。就在今年6月的2023年芯片创新日，Amazon EC2副总裁Dave Brown回忆起2012年，当时亚马逊云科技是如何进入芯片设计的故事。一晃，已是十年。

他描述了一群领导者，包括 Peter DeSantis 和 James Hamilton，如何设想“增加一个硬件设备来增强亚马逊云科技的安全性和性能”——这个简单的想法，开启了一个全新的时代，带来了多种定制的芯片产品。

而在此次re:Invent，就有两款亚马逊云科技自研芯片有了重大升级，分别是：

Amazon Graviton4

Amazon Trainium2

Amazon Graviton4 和Amazon Trainium (原型) (Business Wire提供)

Amazon Graviton系列芯片，无疑是芯片发展史上浓墨重彩的发明。提起ARM架构的云端芯片，大家似乎不陌生。但如果把时钟拨回到6年前，虽然当时业界已经通过iPhone，认可了ARM架构是移动端CPU的好选择。但是，开发并规模化商用ARM架构的服务器CPU，还是前无古人的创举。

而亚马逊云科技就是那个开创者，Amazon Graviton第一代诞生于2018年，“现在接近10%的服务器总销售额是ARM，其中很大一部分来自亚马逊云科技。在CPU方面，这家公司做得很好。”Bernstein Research高级分析师Stacy Rasgon在一次接受采访中如是说。

本次大会，Amazon Graviton已经更新到第四代，但依然没有放慢高速增长的步伐。据悉，与前一代相比，Amazon Graviton4性能提升30%，独立核心增加50%，对于高并发等应用所需要的内存带宽，更提升75%，并且，还进一步通过高速物理硬件接口的完全加密提升了安全性。

熟悉造芯的朋友们都知道，设计和成功流片一颗新架构的芯片只是造芯的基本功，而能让芯片规模化的用起来，才是决定造芯是否成功的天花板。

在管理理念上，亚马逊内部有一招很特别的法门，叫做“working backwards逆向工作法”。亚马逊云科技的成功造芯，或许正与此有关。

关于“逆向工作法”，曾经贝索斯在2008年致亚马逊公司股东的信中所做解释大意如下：如果我们能很好了解顾客需求，并深信这种需求是有长期价值。那么，我们的一贯做法是——耐心探索，直至找到解决方案……从顾客需求出发的“逆向工作法”（Working backwards）与“技能导向法”（skills-forward）形成鲜明对比。

简单来说，逆向工作法，就是先研究需求，再根据需求创造相应工具；而技能导向法，则是手里拿着一个锤子，看什么都像钉子。

亚马逊云科技的造芯过程，某种程度就遵循了逆向工作法。以亚马逊云科技最早的硬件系统Amazon Nitro为例。它的出现，就是为了解决Xen架构的虚拟化系统的资源消耗问题——服务器中大概只有七成的资源能够提供给用户。而Amazon Nitro针对虚拟化损耗，提出定制化硬件的思路，最终提供了裸机的性能。

而在与用户应用关系度更紧密的CPU层面，亚马逊云科技提供了针对不同负载优化的计算实例类型，来推动芯片的落地应用，从计算密集型、内存密集型，再到存储、IO敏感、吞吐敏感、网络延迟敏感等，一应俱全。

针对最新的Amazon Graviton4，亚马逊云科技就提供了Amazon EC2 R8g内存优化性实例，可以提升客户运行高性能数据库、内存缓存、大数据分析等工作负载的效率。R8g实例相比当前一代R7g实例提供更大的实例大小，虚拟处理器（vCPU）以及内存均提升了3倍。这让用户可以处理更大量的数据、更大规模的工作负载、更快的获得运行结果，并降低总拥有成本。基于Amazon Graviton4的R8g实例现已提供预览版，并将在未来几个月推出正式可用版。

对于Amazon Graviton的设计方式，同样是从逆向工作法开始的，Amazon Graviton自发布以来，它的设计出发点就是用户的实际工作负载，而不是测试软件的benchmark。通过一个“六边形性能分析”可以看到，Amazon Graviton4相比上一代是如何在数据应用中提升性能。这些性能的提升不仅仅存在于re:Invent上，更在客户每次用实际工作负载来测试Amazon Graviton芯片中。

Amazon Graviton4的六边形性能分析，以及在Amazon Graviton3和Amazon Graviton4上运行的MySQL示例

据统计，目前由Amazon Graviton支持的Amazon EC2实例种类达150多个，已经构建的Amazon Graviton处理器数量超过200万个，并拥有超过5万客户，包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP，在使用Amazon Graviton服务之后，成本降低了35%，且分析速度更快，同时减少了45%的碳排放量。

不过我猜，Arthur Goldstuck和很多人在内，在re:Invent期间更关注的一颗芯，会是Amazon Trainium系列，因为这是面向模型“训练”的芯片，而这部分，算力的瓶颈问题众人皆知。

此次大会发布的Amazon Trainium2，是一款专为基础模型和大模型而生的产品，为拥有数千亿甚至数万亿个参数的基础模型训练做了优化，相比第一代Amazon Trainium(发布于2020年12月)，性能提升4倍，内存提升3倍，能效(每瓦性能)提升2倍，几乎全线超过摩尔定律所定义的范畴。

同样，亚马逊云科技也有相同的实例推动新系列的落地。Amazon EC2 Trn2实例就采用了Amazon Trainium2，一个单独实例中包含16个Amazon Trainium芯片，Trn2实例可帮助在下一代EC2 UltraCluster中扩展到10万个Amazon Trainium2，通过搭配Amazon Elastic Fabric Adapter (EFA) 网络互连，提供65 ExaFlops超算级性能。基于此，客户只用几周就能训练出有3000亿个参数的大模型，这约是OpenAI的大模型GPT-3大小的1.75倍。

在这场发布的间隙，在采访中被问道“造芯对于客户带去什么价值”时，亚马逊云科技全球汽车及制造行业专业服务团队负责人Jon Allen表示：

“客户想要更快的、更便宜的东西，这是基本原则。”无疑，这也是非常“逆向工作法”的一个回答。他以汽车业务举例，“真正训练一辆自动驾驶汽车，起码得开车跑900万英里，如果用传统方式做数据训练，很多OEMs客户可能根本负担不起”。

生成式AI大时代，有自研，但不影响联盟

虽然亚马逊云科技一直持续自研芯片，但是封闭并非这家公司的基因。而在生成式AI时代起决定性作用的另外一家巨头，英伟达创始人兼CEO黄仁勋穿着标志性皮衣，甚至作为此次re:Invent的首位上场的合作伙伴，与Adam Selipsky进行了一场对话，在对话中黄仁勋提到：

“生成式AI正改变各种云端负载，为多元内容创作在底层注入加速计算动能。我们的共同目标是，为每个客户提供具有成本效益的先进生成式AI，为此英伟达与亚马逊云科技在整个计算堆栈展开合作，横跨AI基础设施、加速库（acceleration libraries）、基础模型、以及生成式AI服务。”

在真正的创新者面前，重要的不是是否有竞争，而是双方是否有能满足客户需求的能力，显然，亚马逊云科技和英伟达都在对方身上看到了这一点。

“GPU和GPU之间用NV link连接方式让我们的GPU可以直接存取CPU的记忆体，CPU可以直接使用GPU的记忆体，这是非常快地进行的。在更大的网络中，通过Grace Harper链接在一起。Amazon Nitro可以将GH变成一颗巨大的虚拟化的GPU。这么多的实例，我们可以跟亚马逊云科技EFA兼容起来用，这也是非常快速的速度来运用的，所有单元都可以变成超级的集群。”黄仁勋说道。

约13年前，亚马逊云科技是第一家把英伟达GPU芯片带到云上的云厂商，而接下来，双方还将扩大合作，主要包括四个方面：

亚马逊云科技成为第一家在云端配备英伟达GH200 Grace Hopper超级芯片的云厂商。英伟达GH200 NVL32多节点平台为运用英伟达NVLink与NVSwitch技术连接32个Grace Hopper Superchips组成的实例。此平台将在Amazon Elastic Compute Cloud（Amazon EC2）实例上可用，与亚马逊云科技的网络相连，由虚拟化（Amazon Nitro System）及超大规模集群（Amazon EC2 UltraClusters）提供支持，让共同客户能扩展至数千个GH200超级芯片。

在亚马逊云科技平台上将推出英伟达DGX Cloud NVIDIA AI“训练即服务（AI-training-as-a-service）”。此服务将是首个配置GH200 NVL32的DGX Cloud，为开发者提供单一实例中最多的共享内存。在亚马逊云科技上运行的DGX Cloud将加速训练含有超过1兆参数的尖端生成式AI与大型语言模型。

英伟达与亚马逊云科技合作推动Project Ceiba，构建全球最快的GPU驱动的AI超级计算机，这是一个配备GH200 NVL32与Amazon EFA互连技术的大规模系统，该系统部署在亚马逊云科技上，为英伟达研发团队提供服务。该超级计算机将前所未有地配置16384颗英伟达H200超级芯片，能处理65 exaflops（衡量超级计算机性能的单位,每秒浮点运算可达一百亿亿次）速度等级的AI运算，英伟达使用该超级计算机推动其全新生成式AI的创新。

亚马逊云科技将推出三款Amazon EC2实例：P5e实例配置英伟达H200 Tensor Core GPUs，针对大规模与尖端生成式AI及HPC高性能运算工作负载；分别配置英伟达L4 GPUs与英伟达L40S GPUs的G6与G6e实例，可运行包括AI微调、推理、绘图以及影片工作负载等广泛应用。G6e实例特别适用于开发3D工作流程、数字孪生、以及其他使用英伟达Omniverse的应用，用来连接与构建各种生成式AI的3D应用。

提到大模型，总有人认为这是巨头的游戏。但是Jon Allen不这么看，“对中小企业和创业公司来说，我们的AI芯片带给他们与宝马等汽车巨头相同的计算能力。十年前的硅谷，只有十几人的小公司根本无法负担高昂的算力（与大玩家竞争）。现在不一样了，AI芯片确实创造了新机会。“

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

云计算如何创芯：“逆向工作法”的性感之处

下一篇