DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

事件回顾:加拿大Rogers大规模断网

当地时间2021年4月18日,加拿大第一大移动通信网络运营商Rogers Wireless及旗下Fido Solutions发生超大规模断网,造成严重的社会影响。此次大规模断网事件波及加拿大全国范围及近千万用户、持续时间长、造成影响大,对Rogers带了巨大的直接经济损失和间接品牌损失,对加拿大经济产生了重大负面影响。这也是5G网络有史以来最大的事故。此次事件产生的直接原因是5GC设备商软件升级,触发隐性软件Bug。经过分析,该事故的深层次原因是5GC NFV化,带来了核心网云网络黑盒化问题,导致5GC运维技术难度高,故障定界定责定位难度高,难以发现网元故障征兆,出现故障之后难以快速确定问题界面,难以快速确定故障源。

015GC运维痛点

随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。

在实际的5GC运维过程中,已经暴露出系统“黑盒化”、运维技术难度高、故障定责定界难、面向业务保障难等一系列挑战。

正是由于NFV化带来的网络可靠性问题和运维保障困难,各大运营商在现阶段只能退而求其次,暂缓5GC三层解耦工作,只推进硬件层解耦,或者硬件层与虚拟层、网元层厂商绑定,由5GC厂商来确保网络运行可靠性,但实际工作中,5GC厂商在对现网进行运维保障时面临与运营商同样的技术挑战和跨技术部门协同的困境。

02DeepFlow云网络流量监控运维管理平台

DeepFlow是由云杉网络开发,面向云数据中心、用于业务可靠性保障的一款云网络流量监控运维管理平台。

DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图1 DeepFlow 5GC网络监控架构

03方案要点

兼容性强:与各厂商5GC方案全兼容。

低资源消耗:1%的CPU资源、1%的内存资源、1‱~1%的网络带宽资源。

跨层跨域:硬件层、虚拟化层、容器层全栈流量采集和网络性能分析,准确、客观反映网元/网络状态,不依赖厂商日志。

秒级定位:智能分析、关联展现任意资源点间端到端、逐跳性能指标,实现故障秒级定界、定责、定位。

运维场景:有效支撑丢包、时延、传输层异常、应用层异常、网络风暴、信令风暴等场景的监控、运维、故障定位。

04使用案例

2020年在某电信运营商网络云测试资源池进行了DeepFlow系统的部署,纳管宿主机、虚拟机、容器POD、IP,实现对5GC的纳管覆盖和可视化监测分析。

通过在网络云测试资源池的部署使用,充分证明了DeepFlow的产品能力,能够打开5GC云资源池“网络黑盒”,实现对所有5GC网元(VNF)不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5GC网元的多维度网络监测视图,建立跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决了故障快速定界、定责的难题,快速定位故障源,提升解决时效;解决业务保障、网元运维、云资源运维、网络运维的协同难题;为5GC云资源池提供针对性的安全观测手段(信令风暴、网络风暴、DDoS攻击、非法IP访问等)。

05故障定位案例

场景1网元微服务DNS异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的“DNS异常均值”超出合理范围。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图2 PCF的“DNS异常均值”超出合理范围

在DeepFlow系统中一键快速切换到PCF的容器POD视图中,发现“cse-etcd-1”的“DNS异常均值”最高,快速锁定故障源在网元容器POD-“cse-etcd-1”,指导网元运维人员介入处理故障。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图3 PCF内的某个容器POD的“DNS异常均值”超出合理范围

一键快速切换到“cse-etcd-2”的DNS日志视图,发现“cse-etcd-2”的DNS请求被DNS服务器反馈“名字错误”,快速为PCF业务运维人提供了详细DNS日志用于根因分析。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图4 “cse-etcd-2”的异常DNS日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景2网元微服务TCP建连失败量异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的TCP建连失败远高于正常值(在5分钟内累计55.45K个)。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图5 PCF的TCP建连失败总量异常

一键快速切换到PCF的容器POD视图中,检查“建连—失败总量”排名,发现“vha-pod211-2”的容器POD异常,快速锁定故障源在网元容器POD-“vha-pod211-2”,指导PCF网元运维人员介入处理故障。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图6 PCF的vha-pod211-2容器POD建连失败总量异常

一键快速切换到“vha-pod211-2”的流日志视图,可以发现大量的“服务端直接重置”异常,快速为网元运维人提供流量日志用于根因分析。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图7 PCF的TCP建连失败流日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景3虚拟机时延异常快速发现及快速定位

在Free5GC搭建的一套5GC环境中,使用DeepFlow云网络流量监控运维管理平台对5GC的全栈流量进行采集和可视化分析,通过模拟虚拟化层的故障,在虚拟机接口制造500ms的时延。

通过DeepFlow平台,在5GC VNF的可视化视图中,快速发现AMF->AUSF、AUSF->UDM链路出现HTTP时延峰值异常告警(图8步骤1)。

通过DeepFlow平台的全栈性能指标可视化视图,可以一键快速查阅AUSF->UDM全路径①-③、⑤-⑦接口的HTTP时延峰值、TCP建连客户端时延峰值、TCP建连客户端时延峰值,秒级锁定问题位置在接口⑤与接口⑥之间,即UDM的宿主机与虚机间的接口导致时延异常(图8步骤2)。

DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

图8 虚拟机时延故障定位过程注1:①AUSF容器接口;②AUSF虚机接口;③AUSF宿主机接口;⑤UDM宿主机接口;⑥UDM虚机接口;⑦UDM容器接口注2:步骤3-5表示HTTP时延、TCP建连客户端时延、TCP建连客户端时延的全栈指标图形化解读。

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在虚拟机层,分钟级锁定出现问题的具体位置在某台虚拟机的某个虚接口。

05DeepFlow产品对5GC的价值

实现云资源池网络可视化,打开系统黑盒;

降低云资源池运维对各专业的技术挑战;

破解云资源池运维跨层定责定界、故障源定位难题;

提升业务运行可维护性、可靠性;

推进三层解耦的技术发展和实施落地。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map