中国移动程伟强:GSE两大模式满足所有智算组网场景需求

9月12日消息(九九)9月11-13日,第25届中国国际光电博览会在深圳举行,在同期举办的“智算中心光技术创新发展论坛”上,中国移动研究院基础网络技术研究所副所长程伟强表示,大模型技术发展趋势总体仍然遵循ScalingLaw,参数已迈进万亿甚至十万亿规模;模型结构在原有Transformer的基础上,引入了扩散模型、MoE专家系统,模型的泛化能力增强、性能提升。

程伟强指出,大算力仍然是大模型创新落地的关键,国内外大型科技公司正积极投建万卡/超万卡集群智算中心。近日,作为全球运营商最大单集群智算中心,中国移动智算中心(哈尔滨)正式上线投产。该智算中心单集群内超过1.8万张AI加速卡,智能算力规模达6.9EFLOPS。

以太网物理层安全(PHYSec)突破加解密性能瓶颈

程伟强强调,智算中心新一代以太网技术需要具备高带宽、高可靠、高安全等特点。

在高带宽方面,DCN和DCI正加速向800G和1.6T演进。800GE标准、产业成熟,已开始商用部署。单通道100G的IEEE802.3df标准已发布,产业已成熟;单通道200G的标准baseline已确定,800GE coherent新增20km光接口,支持传统电信场景的需求,支持20/40/80km互通和共技术平台。1.6T标准正稳步推进,产业成熟、商用部署仍需时日;IEEE802.3dj重点关注1.6TE短距光标准,OIF已领跑1.6T相干标准化。

中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,同时主导通过800GE 20km/40km相干标准框架提案被工作组采纳。

在高可靠方面,FlexLane弹性通道技术,为智算网络互联提供高可靠保障。FlexLane是基于以太网物理层弹性通道的高可靠保障技术,当物理层检测到lane故障后能够进行快速故障隔离,故障恢复后可以自愈。

在高安全方面,以太网物理层安全(PHYSec)突破加解密性能瓶颈。智算中心基础设施承载大量数据传输处理,安全诉求极高;RDMASec、MACSec等安全方案在加解密带宽开销、时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞。中国移动探索将传统密码学思想应用到以太网物理层—PHYSec,解决现有技术方案的安全漏洞与性能瓶颈。

程伟强介绍,PHYSec具有四大优势:一是协议透明,全加密。在物理层对比特流加密,保护所有帧头部,掩盖帧长度、帧发送频率。二是随流安全,低时延。随流加密,解密时延全掩盖(~20ns),对AI训练或推理基本无影响。三是不占带宽,低开销。基于物理层原生机制承载协议,不占用用户带宽。四是兼容存量,易部署。可基于PHY芯片或光模块DSP芯片实现,安全可插拔,支持存量网络平滑升级。

全调度以太网(GSE)两大模式,满足所有智算组网场景需求

程伟强指出,传统网络技术难以适应大规模AI集群的发展需求,面临着四大难题:大规模网络拥塞控制难、突发大象流负载均衡难、巨量链路长期稳定运行难、敏感隐私数据安全保障难,亟需彻底革新底层基础网络技术。

中国移动原创提出GSE技术体系,革新以太网转发机制,基于分发粒度、发流模式、转发机制和安全加密四大原创技术,实现高精度负载均衡、网络层原生无损及低延迟。

程伟强介绍,全调度以太网(GSE)两大模式,满足所有智算组网场景:纯网络(N2N)方案交换设备需支持GSE核心能力,如GSE头解封装、多路分发、授权及排序等,网卡无感知;端网协同(E2E)方案交换设备能力弱化,负责多路分发,GSE核心能力下沉至网卡。

程伟强进一步介绍,GSE-N2N技术方案是基于报文容器的多路径喷洒及DGSQ授权。程伟强解释说,单流多路径是提升网络有效带宽、降低网络拥塞的关键手段,其核心是打破传统流转发粒度,在保证链路均衡性的前提下,充分利用网络多路径,同时减低端侧处理乱序的压力。

GSE E2E技术方案是基于报文容器的多路径喷洒及乱序处理。在现有网络报文级负载均衡且乱序交付方案中,由于接收端缺少报文到达的路径信息,无法快速判丢;GSE的容器理念可为端侧提供报文转发的路径信息,实现端侧在乱序接收情况下的快速判断。

截至目前,全调度以太网GSE1.0已经正式商用于中国移动智算中心(哈尔滨),GSE-N2N千卡集群正在试商用,GSE-E2E原型设备即将发布。程伟强透露,中国移动已经启动同厂家、异厂家千卡级GSE中试验证,配合九天、LLama-70B等大模型,验证GSE技术成熟性。GSE推进计划团队已经完成三本技术标准的制定,并于9月底进行正式发布。

智算中心互联:IP+光融合方案是重要技术方向

随着AI大模型的发展,新型智算互联业务不断涌现,以分布式训练、存算分离为代表的新型业务对网络提出了更高要求。

面向AI大模型分布式训练需求及场景,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,“可通过网络能力整合多个集群,换取更大的集群规模。”程伟强说。

面向分布式训练长距离互联,其最大的挑战是网络时延增加(受限于物理极限)和互联带宽巨增(受限于建网成本),带宽和时延的劣化,大幅降低集群有效算力,集群互联获得的规模效益降低,拉远算效目标相比同局址不能低于80%(业界红线)。

程伟强认为,百公里城域跨园区互联场景是一个技术问题,电力缓解、网络受限,通过大buffer路由器设备、高速以太网中长距技术,为AI大模型分布式训练提供更强大的算力。其中,IP+光融合方案有利于简化互联设备形态,降低功耗、尺寸、成本,实现统一管控运维,是跨智算中心互联IP广域网的重要技术方向

千公里跨省多节点互联场景是一个科学问题,网络、模型算法均受限,需要凝聚产学研用各方力量,共同攻关新大模型算法,新组网架构、路由器缓存共享、大象流负载分担、IP广域拥塞控制等关键技术,争取形成全球领先的技术突破。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-09-12
中国移动程伟强:GSE两大模式满足所有智算组网场景需求
中国移动程伟强:GSE两大模式满足所有智算组网场景需求,C114讯 9月12日消息(九九)9月11-13日,第25届中国国际光电博览会在深圳举行,在同期举办

长按扫码 阅读全文

Baidu
map