大规模监控管理
面向混合云数据中心,提供全面混合大规模监控能力
挑战分析
运行监控管理是运维组织最基本的工作之一,在IT建设的任何阶段都是运维投入的重点,但在新技术快速发展的今天,传统监控工具存在明显的不足:
  • IT资源规模剧增,传统单体监控系统面对多中心模式大规模监控性能存在性能和扩展瓶颈;

  • 技术架构及组件应用迭代高速,管理范围、粒度有待加强;

  • 传统静态阈值监控方式,无法满足复杂环境下性能波动监测;

  • 没有建立有效的指标监控管理体系,缺乏监控的自服务和持续改进能力。

解决方案

要破解监控管理工具当前所面临的困局,首先要充分利用大数据技术架构搭建底层平台,确保平台的高可用、可扩展,满足多中心模式大规模监控性能与数据存储要求。

同时,监控要以应用为中心,通过监测策略化松耦合指标、阈值和资源的关联,和运维流程管理打通,实现应用、资源、网络的全方位自监控能力,并最终具备集中化的告警管理和可视化展示能力。

基于广通优云近二十年在运维监控方面的实践积累,以大数据、微服务技术架构推出了全新的一体化大规模监控管理解决方案。

  • 大数据自监控服务
    基于运维中台,以统一采控和数据计算平台,实现分布式、水平扩展的大数据监控能力,借助平台提供流式计算能力,实现万台设备秒级监控,通过策略化的自监控服务,建立监控的标准化体系。
  • 集中化告警管理
    支持基于规则引擎对告警接收、过滤、压缩、归并、升级的事件处理流程,并具备基于AI算法的动态阈值与故障根源定位能力。
  • 故障联动化处置
    支持与流程、自动化联动,实现故障派发工单、故障自愈等联动处置能力,实现故障处理的标准化与规范化。
  • 监控可视化展示
    提供可视化运行态势感知,特别适合于ECC监控中心的展示要求。
典型案例