腾讯陆佳宁:数据中心开放光网络中“自动驾驶”设计与全局风险管控

9月13日消息(焦焦)9月11日,第25届中国国际光电博览会在深圳开幕,在同期举办的“智算中心光技术创新发展论坛”上,腾讯网络运营工程师陆佳宁发表了以《数据中心开放光网络中的“自动驾驶”与全局风险管控》为主题的演讲,与大家深入探讨了在数据中心开放光网络环境中,光网络中光纤变化所带来的挑战及“自动驾驶”的核心技术与未来展望。

陆佳宁表示,随着数据中心基础设施海量运营,光纤数量增多,光网络运维中遇到最大的问题是光纤故障,主要包括:中断,劣化,抖动/变化等。对于光纤中断或是出现较大幅度变化等较严重光纤事件时,则采取建单,报障运营商,波分运营配合修复。而对于时常会出现的光纤小幅度抖动和变化时,出单几率低,维修困难。若光纤衰耗与光放增益失配,无自动化手段恢复,会导致严重的系统隐患。

当前光纤量越来越大,造成衰耗抖动愈发频繁,对于业务的影响逐渐增多,光纤和增益的适配,不仅会影响波道性能,在收端的倒换也会受到影响,甚至会失效。因此,在系统建设初期,要保证余量足够,用光放增益和衰耗配置的方法,可以顺利运营系统整个生命周期。同时,系统配置自动追踪是提升系统稳定性的关键。

五大核心设计理念为“自动驾驶”保驾护航

陆佳宁介绍,所谓“自动驾驶”,实际上就是让系统自动追踪光纤的变化,并且准确配置光放板卡的增益和VOA。

首先,“自动驾驶”设计以基准衰耗为基础。系统准确捕捉光纤衰耗的真实变动,排除瞬时抖动或异常值的干扰,用拟合算法得到真实的光纤基准衰耗。当基准衰耗变化值超过一定的范围,触发“自动驾驶”系统,以基准衰耗为基础,计算光放配置,准确配置光放板卡的增益和VOA。

第二,“自动驾驶”需进行模块化解耦设计。“自动驾驶”模块化设计的原理为:创建调测任务触发“自动驾驶”,再进一步调度任务,执行任务。整体流程需要模块化解耦对系统进行设计。为了后续的全局管控和任务调度,需对整体任务进行分层设计,分为平面任务、复用段任务和子任务,按优先级进行管控。任务创建后,由任务自动调度模块传递到调测流程中,正式开始配置计算和调测流程,此外还需要全局管控模块,统筹风险管控。

第三,“自动驾驶”设计要有全局视角调度和控制能力。全局控制调度包含系统划分,顺序保障以及临时暂停和恢复。系统划分是以传输系统的物理层面进行划分,保障不同调优拓扑的独立性。顺序保障需确保同一个系统中的所有子任务均已完毕,才开始调测下一个拓扑。暂停和恢复则是当“自动驾驶”过程出现其他意外动作状态,如故障或认为结束命令时,暂停当前调优,意外动作状态结束时,恢复调优。

第四,“自动驾驶”要有全局视角调度顺序。自动调度任务顺序是核心,要确保链路调测顺序符合人工运维习惯。点对点系统调测顺序无分叉,依据是简单的上下游关系的顺序;ROADM系统调测顺序,带分叉,依据业务流向定义顺序。

第五,“自动驾驶”设计需明确调测流程关键点。调测流程设计要点为准确性和安全性。在任务执行时,配置准确计算,以性能拟合值而非瞬时值计算,还需要对器件类型进行区分。在调测过程中分布下发,并且进行校验,确保配置下发成功,性能符合标准。此外还设置安全机制,一定时间内OSC无抖动开始任务调度,规避故障叠加,任务执行过程中若发生非稳态抖动则中止任务,继续等待稳态,如果有异常直接回退处理。

自动驾驶需全局风险管控

为何要做全局风险管控?陆佳宁解释到,主要是因为波分系统承载了整个腾讯云骨干网的流量。两者的关系可以理解为一套波分系统有两个平面,两个波分平面分别是一套独立的波分的物理系统,两个波分平面,承载着骨干网的多个平面。

陆佳宁表示,实际上光放增益配置调节存在理论风险,考虑到骨干网风险管控需求,多个波分平面不能同时中断,所以仅从波分网络视角的风险管控,不足以对数通层面的风险进行管控,需对不同波分网管统一管控,才能同时进行“自动驾驶”。而“自动驾驶”系统是放在每个网管上面,不同网管的“自动驾驶”无法互通,所以腾讯云网络进一步引入了全局风险管控,对各网管的“自动驾驶”统一加锁管控,集中式管控波分“自动驾驶”任务。

演讲最后,在谈到对“自动驾驶”的未来展望时,陆佳宁提出,“自动驾驶”实际上是通过对光网络配置项做出相应动作,让光网络处于最优状态。今后,可以对光纤故障处理动作精细化,根据实时光纤余量进行光纤故障场景自动决策。目前,光纤余量计算的精度已经得到实验室的验证。

此外,陆佳宁认为,对于C+L的“自动驾驶”思路也需转变,从单一的衰耗补偿思路转变为综合的入纤谱稳定思路。这也是对C+L系统提出的新要求,需考虑光放增益/voa,斜率,WSS voa等配置项,进行统一的“自动驾驶”设计。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-09-13
腾讯陆佳宁:数据中心开放光网络中“自动驾驶”设计与全局风险管控
腾讯陆佳宁:数据中心开放光网络中“自动驾驶”设计与全局风险管控,C114讯 9月13日消息(焦焦)9月11日,第25届中国国际光电博览会在深圳开幕,在同期举办的“智

长按扫码 阅读全文

Baidu
map