数智时代,数据是金融机构经营的核心资产和最重要战略资源,也是不可或缺的生产要素。只有更好的管理、分析业务/IT系统产生的各种数据,才能从中洞察更大的业务价值,持续优化用户体验,而运维数据治理就是挖掘数据价值的基础和重要手段。
亟需运维数据治理
复杂的业务系统,海量的IT/业务数据,以及新架构、新技术的广泛应用,运维管理面临更大挑战。
第一,缺少统一的告警中心:各种监控系统相互独立没有关联,告警事件内容不同、运维人员也不同,无法快速判断故障根源,因多个监控系统的告警事件扰乱对故障问题的正确快速定位。
第二,缺少统一的监控中心:监控对象的逻辑拓扑或物理拓扑没有关联起来,当问题发生时,需要在不同层面的监控工具中排查,问题的快速发现、快速定位、快速解决带来了诸多不确定性,从而影响到用户体验和SLA。
第三,缺少统一的评价体系:监控对象都有独立的评价标准,而这些标准缺少统一性,导致运维人员没有指标体系的参考依据,缺少对系统整体运行健康度进行管控,同时无法制定出统一的故障预警管理策略。
运维数据治理的原则
第一,统一数据维度:不同监控系统的告警信息进行有效的关联、收敛、压缩,统一定义告警和事件级别,以及对应的处理(通知)流程;打通运维工具间的数据孤岛,将全部运维监控工具产生(采集)的数据进行统一的处理和存储。确保每个业务系统的每个监控指标都有唯一的、定义明确的数据来源。
第二,提升数据质量:不同监控系统的数据源进行数据标准的重定义,依据国家、业界或者监管机构的标准,再结合自身的实际情况对数据进行规范化处理;一般包括格式、编码规则、字典值等,将处理后的多源异构的运维数据进行统一的存储与关联分析,从而提升运维数据的质量。
第三,确保数据实效性:运维数据往往存在大量的重复和冗余,同一个事件可能导致大量重复的指标、告警、日志等。通过过滤、降噪和聚合,把具备历史分析价值的数据流转到数据湖中进行分析,这不仅会节省时间,而且也能够节省冗余数据的存储和计算成本。
运维数据治理的目标
通过建设一体化的统一监控平台,可以帮助IT部门实现运维数据的三个统一:
第一,统一标准:实现运维数据处理规范中对数据采集、处理、存储、展现的标准统一;实现运维事件和告警处理流程规范中对事件级别定义,处理流程定义、通知内容定义的标准统一;实现监控指标定义中的SLO(服务等级目标)指标选取。
第二,统一数据:元数据管理可以清晰展现数据从哪来,属于谁,让运维人员或者系统能够更好地理解所获取的数据,同时通过统一的存储与关联分析将多源异构数据彻底打通。
第三,统一服务:用户通过统一的服务接口(GUI/API)消费运维数据和功能。主要包括:数据呈现(大屏和仪表板)服务、数据分析服务(数据建模和查询)、监控指标异常检测服务、监控告警通知订阅服务等。
运维数据治理解决方案
云智慧运维数据治理解决方案支持PB级、多种数据的采集、分析、存储和管理,包括海量结构化数据、半结构化数据和非结构化数据,且具备线性的横向扩展能力。
运维数据的统一采集
通过并行多任务采集,提高数据采集效率及准确性,支持各类数据源(日志、监控、业务、配置等)的配置信息录入、查看、修改,并提供各类数据源的数据样例展示。支持HTTP、Kafka、API、日志、文本、数据库、自定义等多种方式数据接入,数据采集接口程序规范统一,同时具备监控接口采集效率、统计采集数据量的能力。
运维数据的统一处理
高效数据处理机制:采用高性能混合存储模式,非实时数据存储全量数据,实时数据在全量数据的基础上实现增量存储,相对于其它传统的数据存储查询方式,存储效率提高300倍。
可视化数据处理过程:数据处理提供图形化操作界面,实现自助式数据分析与挖掘算法模型创建。整个数据处理过程,支持通过Web界面进行编辑,无需编辑程序代码或Shell脚本,即可完成数据处理的复杂操作。
数据集成与ETL:提供数据集成实施和服务功能,从ETL 数据导入到SQL查询以及全文检索的一站式图形化工作流,支持分布式的海量日志采集、聚合和传输。
运维数据的统一存储
基于几个核心场景:数据治理、数据集市、数据分析、数据应用等,持多种存储介质和计算模型,同时具备可靠性、可用性、一致性、伸缩性。
1、监控数据存储:时序数据库(ClickHouse、InfluxDB)
2、日志数据存储:Elasticsearch、Hadoop/Hbase
3、分析报表数据存储:MySQL等关系型数据库
4、告警事件数据存储:Redis数据库
运维数据的统一服务
运维数据可以进行按需消费,根据运营和运维的需求,快速敏捷的创建面向特定场景的数据应用,充分释放数据的价值。汇总数据、整合指标体系、制定相应标准,通过PC端、移动端、ECC大屏、Dashboard,数据展示业务健康、IT资源健康、用户体验、安全态势以及问题事件等应用服务。
价值与展望
云智慧运维数据治理解决方案构建了一套完整的IT与业务系统的评价体系,为提高运维效率、优化用户体验、改进服务流程、资产管理、运营决策等方面提供了强有力的支撑。运维数据治理不可一蹴而就,从业务发展、数据治理意识形成、数据治理体系运行、人员组织等需要一个长效机制来进行保障,这样才能让数据资产可以发挥更大的作用。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )