从信息化时代开始,企业IT系统就在不断的生产着各种监控数据和业务数据,但信息孤岛的存在和数据处理能力的限制,让无数企业空守宝山而无用。时至今日,虽然横向扩展的分布式架构、通用灵活的云计算系统得到广泛普及,但是IT数据所提供的业务价值不但没有提升,反而因为数据量的指数增长和双模IT(Bimodal IT),数据竖井(Data Silos)的问题愈发严重。
智能关联分析与上一篇《云智慧AIOps智能运维应用实战之告警抑制》是相辅相成的,告警消息通过有效的关联,获得更高的压缩比;而关联分析所面向的数据不但来自于告警抑制输出的警报,还有日志数据、业务指标数据等,因此部署了告警抑制之后,可通过智能关联分析获得更有价值的数据结果。
智能关联分析的典型应用场景
企业的应用系统架构复杂,技术体系多样,离散地采用了多种监控系统来实现不同的技术栈监控,如基础设施与服务采用开源的Zabbix、第三方的监控宝,网络监控使用Solarwinds软件,应用性能管理采用透视宝等,还有一些业务和性能使用日志分析的手段进行监控。
在常规的运维工作中,由于业务系统的拓扑结构非常复杂,当不同监控系统产生大量监控数据并生成警报时,运维人员很难判断警报的分布范围以及各个警报之间的关系。云智慧AIOps智能运维平台智能关联分析,利用大数据分析和机器学习等人工智能方法,对客户现有的业务、设备、网络拓扑图等信息进行自动梳理,形成业务逻辑拓扑关系图,将杂乱的IT数据和业务数据进行分类,并与拓扑关系图中的节点匹配,帮助运维人员明确故障的根本原因和影响范围,提升运维效率。
智能关联分析的特色和价值
云智慧AIOps智能运维平台的智能关联分析产品对于IT运维管理人员具有以下特色和价值:
离散数据的多维聚合分析,寻找根源问题更加全面
从应用性能管理软件、系统日志、Zabbix等多种监控系统中采集性能数据,在采集过程中实时对指标进行各个维度的标定并建立关联关系,通过关系对各个技术栈进行全局分析,这种方法突破了原有方法分析问题的局限,帮助用户快速诊断出问题并进行修复。
精准定位故障,有助于快速处置
利用云智慧大数据平台PB级数据处理能力,采用机器学习的方法建立多指标关联分析模型,全面而精准地从单一用户视角来追踪故障问题,使用故障根因自动定位技术能够提高故障定位速度,从而提高业务可用性。
不仅基于单纯的时间切片方法构建关系,还利用了应用调用链关系、基于聚类等职能分析算法的自动关系发现与构建算法,从而提升了关系构建的完备性和准确性。
此外,云智慧AIOps智能运维平台智能关联分析,还能以业务链上每个对象的KPI的变化进行监控和关联分析,帮助业务部门掌握业务运行规律,降低业务运营风险。
智能关联分析典型案例
云智慧某大型金融客户的业务生产环境有基础硬件上千台,各个业务系统的依赖与调用关系非常复杂。当出现问题时,往往需要数小时才能对故障进行定位,并且过程中需要协调研发、运维等多个部门的人员来进行,整体效率低。
通过已有的 APM、基础设施监控等监控系统,获取各个业务的内部拓扑关系,然后根据业务链整理出核心业务拓扑图十几个,分别将这些拓扑图导入云智慧AIOps智能运维平台,并为每个拓扑图中的节点设置告警匹配的条件,实现告警消息与业务拓扑的配置。最后,将告警事件匹配到拓扑中,运维人员可以在故障发生时,通过智能关联分析功能,迅速定位根因和故障的影响范围。
在实际的生产过程中,该企业的故障修复时间一般为数小时到1天不等。而使用云智慧AIOps智能运维平台智能关联分析之后,大规模故障的修复时间有效地减少到了一小时以内,完成问题定位、止损以及故障修复的全部工作。
总结
云智慧智能运维AIOps平台智能关联分析,以企业现有IT监控数据、日志数据和业务数据为突破点,通过应用高性能大数据处理和人工智能技术,对业务、应用、设备、网络等信息进行智能化梳理和逻辑关联,建立数据层的拓扑关系,消除IT数据内部和业务数据之间的断层,深入发现IT数据的核心价值,成为企业打破IT系统之间的数据竖井壁垒的最佳选择。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。