随着全球数字化转型的深入,数据作为新型生产要素已成不争事实,其中,我国率先将数据列入核心生产要素范畴并大力推动数字经济的发展。《“十四五”国家信息化规划》等国家政策明确提出,到2025年,数字中国建设取得决定性进展,数据要素价值将充分发挥,数字经济高质量发展,数字治理效能整体提升。
而管理着企业各类IT资源数据的运维,属于数据密集型工作,在保障业务连续性方面离不开运维数据有效治理的支撑。但运维数据使用现状却常常出现“运维数据质量不一、价值不显、缺乏抓手”等反馈。广通优云基于在金融、政府、央企、能源等20多个行业100+核心头部客户的运维数据治理生产实践沉淀,不断剖析运维数据治理的核心价值,切入运维数据治理过程中的痛点,探索运维数据治理的体系和有效建设方法论及路径,希望能够带来新的思路。
*以下内容为优云运维数据治理专场直播内容整理
本文内容索引:
1、运维数据治理发展及挑战
2、运维数据治理体系及方法论
3、运维数据治理服务化运营
回顾IT运维的发展历程可以发现,其经历了人工运维到专业工具运维再到当前的运维数字化阶段,在运维能力、运维技术和运维工具等维度不断丰富和快速迭代,运维的生产实践也越来越依赖于运维数据的支撑。而另一方面,随着国家《“十四五”国家信息化规划》等纲领性文件的出台,也逐步明确了数据价值的重要性。信通院在发布的IOMM标准中,对企业数字化转型的一个核心评估维度也是企业的“数据价值化”建设能力成熟度。
运维数据治理的核心价值/图
因此可以看出,无论是从国家政策及行业发展层面,还是企业对自身运维工作的支撑,都提出了对数据形成从归集、分析、应用到开放的一体化数据管理要求。运维数据作为数据治理中重要的治理域,是运维数字化转型的基石,应当充分发挥运维数据的价值,为运维数字化转型赋能。在此趋势下,运维数据治理贯穿企业组织业务产品的开发、部署、上线、运营整个生命周期,然而在此过程中,也存在着许多挑战:在现实落地中,运维数据治理源头异构冗余、难以整合统筹、质量不一不可信和数据难分析、难共享和数据安全缺乏管控机制,建设收益见效缓,难以发挥运维数据真正的价值。
那么,面对这些困点,运维数据治理又该如何破局呢?数据治理核心目标是解决数据质量差和消费难的问题,基于此目标需要构建运维数据治理体系,摸清运维数据的对象范围,明确运维数据治理的定位,并从运维的人员组织、制度流程、支撑能力等管理方面做统一建设管理。
1、运维数据治理范围
进行运维数据治理的前提需要明确运维数据的对象范围,构思需要实现的运维数字化场景,以终为始,梳理企业组织运维数据资产,并进行归类统筹。根据数据面向的维度和来源不同,我们根据实践总结,可以把运维数据大体分为以下8个大类:
业务类数据:针对应用业务类关键指标数据;
指标类数据:面向各类资源的运行动态信息数据;
日志类数据:面向各类资源的运行、操作相关日志数据;
告警类数据:面向各类资源运行告警信息;
资源类数据:面向企业IT资源信息的数据;
作业类数据:面向各类自动化作业任务操作数据;
知识类数据:面向运维知识沉淀数据;
流程类数据:面向流程工单数据。
2、运维数据治理四大基石
在落地思路方面,广通优云基于服务国内100+头部企业客户的经验沉淀,重新总结提炼了运维数据治理建设全流程中遇到的各类挑战,提出了「治理体系」+「能力平台」两大抓手并重的运维数据治理实践方法论,具体可涵盖数据保障、数据标准、数据质量、数据支撑四大基石,通过数据保障、标准和质量等运维治理体系形成数据的标准化管理,配合数据支撑平台对数据的加工处置,实现数据的可见、可用、可运营、以及可消费。
运维数据治理四大基石/图
1)建立运维数据组织、流程和协同保障机制
在运维数据治理工作开展初期,需充分了解企业组织运维及业务概况,根据组织现有架构,结合运维数据治理体系中对组织架构的要求,对现有组织架构进行分层设计,形成符合当前组织状况的运维数据治理组织,明确管理指责,降低协同成本。
运维数据治理组织保障/图
与此同时,需要围绕数据的接入、申请、使用、评价等各个环节,设计不同的运维数据管理制度与流程,通过标准化的流程,形成跨团队的协作机制,减少部门墙和团队墙的问题,达成高效的团队运作。
2)统一运维数据治理标准规范
确立了组织和基本的协同流程工作后,为了规范对数据的统一理解,促进数据共享,统一运维数据治理过程中对数据的定义与使用一致性,需要进行数据标准化的工作。通过相应的标准化制度以及指导文件,后续形成规范化的运维数据治理动作,从源头形成有质量的数据。为后续的数据接入、整合、标签化、处置、消费等一系列的数据动作提供有效前提。
运维数据治理标准规范/图
3)构建运维数据质量度量体系和管理办法
运维数据质量管理是运维数据治理工作的核心,通过运维数据质量的有力把控,才能让数据可用、好用,发挥真正的价值。运维数据质量管理应聚焦有效资源,围绕组织、流程、平台三位一体开展,构建严格考核机制。
三位一体数据质量管理办法/图
组织层面,通过设定质量评价及考核体系,形成KPI;流程层面,形成标准化的流程流转机制,包括定期的总结分析和优化;平台工具层面,通过技术能力进行数据质量的检测,提供检测手段,共同构建三位一体的数据质量管理方法。
从考核对象、考核指标、考核支撑、考核执行四个方面落地,形成运维数据治理质量考核的闭环。
4)搭建运维数据支撑中台并统一运维服务
治理体系的搭建为后续运维数据治理工作奠定了基础,而运维数据价值的焕发同样离不开技术工具的支撑。工具侧,需要基于企业数据治理实施的战略规划,借鉴数仓理念,提供集数据接入、处置、分析、服务为一体的运维数据管理能力,并向上为运维应用场景提供数据及分析支撑。
运维数据中台/图
通过敏捷高效的大数据技术平台,实现生产运维过程中所产生的8大类运维数据的统一集成存储;针对数据服务需求对源数据进行数据加工,生成对应的数据服务模型,并通过开放访问授权,提供统一对外数据服务输出,同时针对不同数据消费需求场景形成多个数据集市,为上层运维数据消费提供可靠数据源,形成运维数据治理的中台化支撑能力。
通过深入行业多年的实践,我们发现许多企业用户真正关心的点在于运维数据治理的价值该如何体现?前面提到,运维数据治理的核心价值是让运维数据更好用,用得更好,前者与数据质量相关,后者则与数据应用场景相关。
运维数据治理服务化运营/图
因此,运维数据治理要直击实际问题,以应用场景为驱动,在海量运维数据中将场景需要的数据做提取、加工、分析,形成数据服务和数据产品,供应用场景消费,最大化数据价值。下面将从2个典型场景来举例说明:
构建运维数据地图
通过对元数据统一管理,形成“技术元数据”、“业务元数据”、“操作元数据”分类,梳理数据关联并以可视化的数据表达方式,展现数据与数据之间的详细血缘关系,能够有效支撑各类运维场景需求。
支撑多维度告警可视化
通过应用系统多维度监控指标、资源配置数据及实时告警数据的整合,形成业务系统端到端的告警可视化展示场景。捏合各运维团队通过一张图看到应用系统从业务、进程、中间件、数据库、操作系统、主机、网络之间的关联关系、数据调用关系和告警影响分析,快速定位根告警和影响程度,为后续故障分级、快速定位、及时处置提供数据支撑。我们回顾运维数据治理建设的体系方法论和实践应用场景,不难发现运维数据治理是一项复杂的工程,它是涉及到技术与管理的组织战略型工作。借鉴行业内成熟度的运维数据治理方法,将有助于运维团队提前认识到运维数据建设过程将面临的痛点,少走弯路,提升运维数据管理的成效,让运维数据活起来。下一讲,我们将围绕真实企业案例,分享如何高效落地运维数据治理的实操。