高盛研究公司(GSR)的数据报告指出,新兴的生成式人工智能工具,将推动全球的国民生产总值(GDP)增长7%,带来约近7万亿美元的GDP增长,并在未来使生产力提高1.5%。这样的价值空间,将推动大模型等相关AI产品市场规模达到1500亿美元,比目前全球软件产业规模还有高出22%。
价值巨大,能力广泛,且能通过“智能涌现”现象带来更多额外想象力的AI大模型,很有可能成为新一轮工业革命的触发点。在今天,每个行业、每家企业都在畅想智能世界的到来,以及自身在其中扮演的角色。
但智能世界就像一座大厦,人们畅想的大厦现代化的设计,优美的环境,最终的入驻体验等。但在真正建造这座大厦之前,首先需要给大厦画好蓝图,建好骨架,夯实地基,否则再美好的智能化畅想都只是空中楼阁。
符合大模型发展需求的基础设施架构应该如何建设?智能时代的蓝图应该如何描绘?
这些问题,在前不久的华为全联接大会2023能够找到答案。
9月21日,华为全联接大会2023期间,华为董事、ICT产品与解决方案总裁杨超斌发表了“拥抱AI时代,构筑智能世界数字基础大设施”的主题演讲。其中提出大模型进入百模千态的AI新时代,打造和应用好AI,关键是要构筑智能世界数字基础大设施。
杨超斌表示:“三力四总线方案为行业智能化升级赋能,AI集群的大算力、大存力、大运力加速AI大模型打造,多场景AI算力和行业智能总线实现智能无处不在。”
简而言之,三力四总线方案就是大模型发展所需的大设施,就是一张智能世界的蓝图。
只有基于大设施的稳固推进,坚定建设,大模型的价值才能最终被充分激活,也只有在合理的蓝图规划与ICT基础设施建设支持下,智能时代才能真正到来。
一张蓝图画AI:智能世界的基础设施需求
从2012年, 学习作为有效AI路径被证实开始,这种大规模数据+暴力计算模式所带来的存、算、网基础设施需求就被广泛重视。到2018年预训练大模型机制开始兴起,基础设施对于AI发展的重要性更是史无前例。时间来到今天,大模型花开遍地,仅仅在中国就呈现出百模千态的发展盛况。这时我们更应该看到AI发展进程中基础设施蓝图的重要性。
推进大模型产业发展就像设计一座建筑,不能随心所欲,这里盖一堵墙,那里开一扇窗,而是必须优先进行统筹设计,合理规划大模型基础设施的全面完善和协同发展。否则大模型技术与产业很容易出现木桶效应,因为某项基础设施的缺失而导致整体进度的放缓与失效。
具体来看,目前大模型发展对基础设施需求主要分为三方面:
第一个关键词是“大”。AI模型的参数变大,对于计算、存储、网络资源需求也急剧扩大。大模型需要构筑具备大算力、大存力、大运力的“AI集群大设施”,这一点已经是当务之急。
第二个关键词是“全”。AI大模型就像其他数字化应用一样,对ICT基座的需求是全方位的。存、算、网三大领域缺一不可,不能偏废。
第三个关键词是“实”。AI技术要通过 融合千行万业来获得价值。而AI最终的推理部署场景,很多发生在工厂、企业园区、小微企业当中。这些场景的联接能力,决定了AI大模型落地向实的最后一公里。
从大、全、实三个方向出发,AI大设施必须能够克服一系列严苛挑战。好在华为已经基于三力四总线,画出了一张架构完善、能力坚实的AI大设施蓝图。
立支柱:以三力支撑大模型时代
设计一座建筑,首先要考虑其纵向的受力能力,也就是我们所说的“支柱”。支柱不稳,地动山摇。因此柱子的质量是决定一座建筑能建多高,建多牢的关键。
就像上文所说,大模型的支柱并非只有一根,而是需要存、算、网三大领域协同发力,以三根支柱建设其大模型,大设施的超稳定结构。为此,华为发布了“大算力、大存力、大运力”解决方案。以三立,打造领先的AI大模型训练集群,支撑起顶天立地的大模型时代。
在算力方面,华为通过架构和系统创新,构筑面向多场景的大算力平台,突破AI大模型训练的算力瓶颈。例如,同在华为全联接大会期间,面向万亿参数的大模型训练需求,华为推出了全新架构的昇腾AI计算集群——Atlas 900 SuperCluster。其可支持超万亿参数的大模型训练,并且采用了全新的华为星河AI智算交换机CloudEngine XH16800,借助高密800GE端口能力,两层交换网络即可实现2250节点的超大规模无收敛集群组网。
同时,Atlas 900 SuperCluster集群使用了创新的超节点架构,极大提升了大模型的训练能力。综合华为在计算、网络、存储、能源等领域的综合优势,依托从器件级、节点级、集群级和业务级全面提升系统可靠性,华为能够实现将大模型训练稳定性从天级提升到月级,满足大模型最为核心的算力稳定性需求。
在存力方面,华为发布了AI知识库存储OceanStor A800。其可以通过创新架构来构建高性能的数据存储能力,全面提升大模型训练效率和推理响应时间。
在运力方面,华为发布了业界首款高运力DCN星河AI智算交换机,和业界容量最大的超宽全光智能DCI方案,从而能够以大规模,大容量的网络运力,最大化释放AI算力。 华为星河AI网络解决方案,拥有10万卡级组网和超95%负载率的超高吞吐,并且具备网络故障预测和秒级定界修复的长稳可靠,可以为智算中心等场景带来适配大模型训练需求的网络运力保障。
大算力、大存力、大运力这三根支柱,可以支撑起AI模型支持扩大、所需数据量指数级提升的未来发展。真正做到为未来画蓝图,为未来的大模型建设今天的大设施。同时,华为还改变了传统的服务器堆叠模式,以系统架构创新打造AI集群,实现算力、运力、存力的一体化设计,突破大算力瓶颈。
三力为柱,让大模型参天入云,智能化发展上不设限。
架横梁:以四总线联接智能化落地
大模型技术既要顶天,也要立地。这就是指大模型技术需要落地应用,在最终的行业场景中释放自身价值。
在大模型落地的过程中,却会发现很多应用场景并不能很好实现大模型的推理部署,这就需要联接千行万业的智能总线。
如果说算力、存力、运力是大模型的支柱,那么我们可以将智能总线理解为大模型这座房屋所需要的横梁。横梁将立柱的支撑力结合在一起,组成整个屋宇所需要的立体结构。
面向大模型的落地挑战,华为推出了“智能联接总线”方案,并且已经将其应用到了广域、园区、工业、微企四类典型行业场景。
在广域网络领域,电力、交通、城市等广域场景中有大量行业AI应用。比如电网差动保护、铁路视频分析、全息交通路口等,他们都需要大带宽、低时延、安全隔离的网络。华为推出轻量化、免设计的智能“SE-OTN”产品,从而实现广域智能总线的端到端超宽无损联接快速部署,保障海量场景实现智能化落地。
在园区场景,各式各样的AI能力正在共同定义未来园区。接下来,我们将看到大量AI应用完善园区管理、辅助园区办公、实现新一代人机交互等。这些未来景象的前提,是具备高带宽、全覆盖和智能化的园区网络。为此,华为带来了智能万兆园区解决方案,为行业的园区客户提供高品质的园区网络体验。
在工业场景,工业智能化被誉为是AI应用中的明珠。AI质检、AI巡检、智能AGV、智能工业分析等应用,将极大提升工业生产力,推动工业体系升级。而AI能力的应用,也给工业场景带来了大带宽、确定性低时延、超高可靠的网络需求。华为通过智能TSN交换机与工业光网、Wi-Fi 7等新技术协同,打造了泛在超宽工业智能总线,从而实现数据上得来,智能下得去。
在小微企业场景,未来中小企业通过AI技术提升效率,强化生产力将成为潮流。但小微企业没有独立的网络维护团队,更需要一站式服务与极简运维体验。为此,华为推出一站式微企智能套装,帮助小微企业提升网络接入体验,并实现云端AI应用落地,推动企业的智能化办公和生产。
配合三力四总线的建设,华为还推出了一系列AI相关计算产品。包括Atlas系列集群、训练和推理服务器、训练推理一体机、AI加速模块等,从而满足云、边、端各个场景的AI模型训练与部署需求。
在AI大设施的建设目标下,华为坚持“硬件开放,软件开源,使能伙伴,发展人才”的计算战略,已与30多家硬件伙伴、1300多家软件伙伴,联合推出了2600多个AI场景方案,并已打造50多个大模型,在多个行业场景实现落地。
智能世界,蓝图为先。三力四总线的筑造和落地,相当于为大模型时代画出了清晰的基础设施建设蓝图,为智能世界造就了坚实的发展底座。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。