在丢包率为0.1%的传统以太网中,我们生活安然,并无不适。而现在,人工智能(AI)带来的数据量激增改变了这一切。
那些以太网曾经看来微不足道的“苟且”开始变得如鲠在喉,它让人们越来越无法忍受。至少对于那些以AI为生的公司和个人而言,情势正变得越来越紧迫:
根据华为GIV 2025(Global Industry Vision)的预测,企业对AI的采用率将从2015年的16%达到2025年86%,彼时,新增数据量达到180ZB,95%的非结构化数据(语音/视频等)依赖AI处理,越来越多的企业将利用AI辅助决策、重塑商业模式与生态系统,并重建客户体验。
一项实测支持的业务观察显示,因为AI业务带动的数据量高速增长,0.1%的以太网丢包率会导致AI的计算力损失约50%——面向AI,在计算和存储领域已经取得突破之后,这一现实让网络设备供应商感受到了前所未有的压力。
为提升AI运行效率,过去数年间,闪存已经大范围进入存储领域,它让数据存储的时延降低超过了100倍;在计算领域,GPU等主要服务于AI的芯片也将数据处理能力提升了100倍以上。
在ICT领域,AI的短板眼下只剩下一块——网络设备。针对这一问题,华为网络产品线总裁胡克文认为,面向AI的未来,网络设备应该做到“强制性”的零丢包。
每家ICT厂商都是努力做着同一件事情,生产出这类适应AI需求的网络设备,全球范围概莫能外。它意味着巨大的挑战与创新,也意味着可见的、巨大的市场回报。
7天的训练,4天完成
如今,围绕这块短板,华为再次领先了。在上周的春季新品发布会上,它推出了植入高能效AI芯片的新款交换机CloudEngine 16800。
CloudEngine 16800发布现场
这款业界首款面向AI时代的计算中心交换机,可以借助其实时学习训练能力和独创的iLossLess智能无损交换算法,在以太网中实现零丢包机制,并实现流量模型的自适应自优化。
2018年,华为轮值董事长徐直军宣布,华为将AI定位为新的通用技术,并发布了AI发展战略,全面将AI技术引入到智能终端、云和网络等各个领域。
CloudEngine 16800能通过AI技术的应用实现突破,显然直接受惠于此战略的执行。基于AI技术,该款产品在网络调优上实现了智能化:一个是单流局部调优,另一个是整网全局调优。
如果将网络视作一个城市的交通网,前者实现了在一个十字路口智能调整红绿灯时间的功能;而后者,则实现了动态关联调整全市红绿灯时间的功能。
据测算,这一系列AI技术的应用,不止在用户端将AI算力从50%提升到100%,同时还将数据存储IOPS的性能提升了30%.
一家互联网巨头已经对这款新品进行了测试,业务内容则是当下方兴未艾的无人驾驶AI训练。
训练的效果让人们大吃一惊——以往1天运行的数据需要训练7天才能完成,而现在,这家公司只用了4天。对于高速的商业竞争而言,这几乎是直接为用户提供了一种接近核心的竞争力。
做一台AI时代的交换机
华为也因此将“内嵌AI芯片”定义成了AI时代数据中心交换机的三大特征之一。在其最新定义中,另外两项特征则分别是“单槽48 x 400GE高密端口”,和“能够向自动驾驶网络演进的能力”。
“如果这三大特征,你不符合的话,你可能就不是面向AI时代的数据中心交换机。”胡克文说。
2012年华为发布了100GE的正交架构产品CloudEngine12800数据中心交换机,并在此后一路高歌猛进。从2016年起,华为的数据中心交换机已连续三年蝉联市场份额第一。2018年,在标志最高应用标准的金融行业,华为数据中心交换机也坐上了头把交椅。
新品特性应对AI时代的3大挑战
华为在技术创新上的投入一直为外界称道,并被视为华为企业基因式的存在。但这种基因以何种形式在机体中发挥作用,外界通常知之甚少。在这一点上,CloudEngine 16800为实现跨越式硬件平台升级所做的技术准备,则可以清晰地显现出这一基因的“运作”方式。
为满足AI时代流量倍增的需求,CloudEngine 16800单槽位提供了业界最高密度48端口400GE线卡,单机则提供业界最大的768端口400GE交换容量,这一交换能力是业界平均的5倍。
其中,针对400GE接口的标准化工作,华为早在2015年便已经启动——考虑到企业AI等新型业务驱动了数据中服务器从10G到25G甚至100G的切换,华为判断行业必然要求交换机支持400G接口,400GE接口标准化工作于2015年启动,并针对数据中心应用完成了标准化。
此外,在新材料新工艺、能效和散热等领域,CloudEngine 16800的创新林林总总,不胜枚举。例如,在用户直接可见的节能方面,与业界相比,新品可将平均每bit数据的功耗降低50%,这相当于每台每年节省32万度电,约合电费26万元。
自动驾驶从秒级识别开始
另一项用户可以直接感受到的革新,同样来自于AI技术的应用。这种用户可感知的能力被称为“能够向自动驾驶网络演进的能力”。
在传统数据中心,在接到故障告警后,技术人员必须依靠人工排查的运维手段定位故障,如果不够幸运,一项故障排查通常需要数小时,甚至更长的时间。这在业务部门看来,显然是无法接受的——它无法面向一个充满挑战的AI时代。
和解决丢包问题一样,华为将问题“交还”给了AI,期待自动驾驶网络能够彻底改变运维人员面对的窘境。
现实中,汽车领域的自动驾驶技术正经历着高速的演进,要在网络世界实现自动驾驶,进程同样存在,一步到位并不现实。在这一点上,胡克文相当乐观:只要有梦想和追求,未来就一定能实现。
“首先,能不能做到在秒级(时长)中把故障识别出来?(那样,IT人员的)压力就会小很多。”他说。
要实现自动驾驶网络,供应商至少要在算法、数据和本地推理与执行等领域同步推进,并在软硬件技术端实现AI的闭环。
据胡克文透露,目前华为相关的iNetOps智能运维算法已经可以支持72大类典型故障,在盲测中,它支持的故障定位准确率超过了90%.
结合这些软实力,以及内置AI芯片提供的硬支持,华为最终在CloudEngine 16800中大幅度提升了“网络边缘”即设备级的智能化水平,使得交换机具备了本地推理和实时快速决策的能力。通过本地智能和集中的FabricInsight网络分析器,CloudEngine 16800构建了一个分布式AI运维架构,并最终实现了秒级故障识别和分钟级故障自动定位。
这一系列的努力,最终让CloudEngine 16800在AI时代背景下展现出了它与众不同的一面。
在同一背景下,数据中心已经成为了AI的“孵化工厂”;现在,要让这个AI在企业数字化转型中扮演更为重要的角色,“孵化工厂”的升级也已进入了时间的节点。
或许,就像华为所努力的方向一样,“孵化工厂们”也是时候考虑如何建设一个自动驾驶的高性能网络来提升AI算力,并最终实现AI业务的加速了。毕竟,AI时代的网络,断然不会接受“苟且”。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )