Skip to content

平台概述

产品定位

告警平台是基于开源平台深度定制的智能告警管理系统,专为解决云原生环境下的告警风暴问题而设计。通过自研的 AlertMind AI 引擎和增强的规则引擎,实现告警的智能处理、精准聚合和自动化响应。

平台核心优势

  • 自研 AI 引擎:集成 AlertMind 0.5B 专用模型,提供更精准的告警分析
  • 级联 AI 架构:创新的 LLM+专用模型架构,兼顾准确性和性能
  • 专用模型优化:针对告警场景深度优化,推理延迟低、准确率高
  • 企业级增强:完善的多租户、权限管理和审计功能

系统架构

核心价值

  • 降低告警噪音:通过智能聚合和去重,减少重复告警,避免告警风暴
  • 提高响应效率:自动化工作流和 AI 辅助分析,加速故障定位和解决
  • 统一管理视图:整合多源告警,提供统一的管理界面和处理流程
  • 智能化决策支持:基于 AI 的关联分析和根因识别,辅助运维决策
  • 知识沉淀与复用:积累故障处理经验,持续优化告警处理流程

核心概念与关系

平台特点

1. 全面的告警源支持

平台支持多种告警源接入,包括但不限于:

  • 云平台监控:阿里云、腾讯云、华为云等
  • 开源监控工具:Prometheus、Grafana、Zabbix 等
  • 应用性能监控:APM 系统、日志监控等
  • 自定义告警源:通过 API 和 Webhook 扩展

2. 智能告警处理

告警去重机制

Alert 平台实现了两级去重机制:

  1. 指纹(Fingerprint)去重

    • 基于告警的关键标识字段生成唯一指纹
    • 可自定义指纹字段,如instanceIdservice
    • 指纹相同的告警被认为是同一告警的不同状态更新
  2. 哈希(Hash)去重

    • 对告警内容计算 SHA-256 哈希
    • 忽略特定字段(如时间戳)后计算哈希
    • 根据哈希值判断是全量重复还是部分重复
  3. 告警收敛策略:

    • 全量重复(isFullDuplicate):完全相同的告警只保留一条
    • 部分重复(isPartialDuplicate):保留但标记关联
    • 可配置收敛时间窗口和阈值

告警富化和分类

  • 告警标准化:统一不同来源告警的格式和字段
  • 告警富化:自动添加上下文信息,如实例详情、服务依赖等
  • 告警分类:基于内容和来源自动分类

3. AI 驱动的分析能力

AlertMind 智能分析引擎

  • AlertMind 模型:0.5B 参数规模的专用 Transformer 模型
  • 级联 AI 架构:结合大语言模型与专用模型的优势
  • 多任务学习:同时支持分类、关联分析和文本生成
  • 智能分级:基于多维度评估告警严重程度和优先级

基于 CEL 的规则引擎

Alert 平台提供两种告警关联分析机制:

  1. 基于 CEL 的规则引擎:

    • 使用 Common Expression Language (CEL)定义关联规则
    • 支持复杂条件表达式,如 source == "aliyuncloudmonitor" && labels.namespace == "acs_kvstore"
    • 可配置时间窗口、阈值和分组维度
    • 示例规则:
      json
      {
        "ruleName": "Redis实例关联",
        "celQuery": "source == 'aliyuncloudmonitor' && labels.namespace == 'acs_kvstore'",
        "timeframeInSeconds": 300,
        "groupingCriteria": ["labels.instanceId"],
        "threshold": 2
      }
  2. 混合分析模式:

    • 规则引擎和 AI 分析并行执行
    • 结果汇总后决定告警处理方式
    • 支持基于置信度的决策

4. 强大的工作流引擎

  • 灵活的触发条件:基于告警属性、时间等多种触发方式
  • 丰富的操作步骤:API 调用、数据查询、通知发送等
  • 条件分支:支持复杂的逻辑判断和分支处理
  • 状态管理:完整的执行状态跟踪和错误处理

5. 完整的事件管理

  • 事件生命周期:从创建、确认到解决的全流程管理
  • 关联告警管理:将相关告警聚合到同一事件中
  • 协作处理:支持多人协作和处理记录
  • 自动化响应:基于事件状态触发自动化操作

技术架构

平台采用模块化、微服务架构设计,主要包括以下核心组件:

  • 告警收集层:负责从各种来源收集和标准化告警
  • 告警处理层:实现告警的去重、富化和分类
  • 告警聚合层:基于规则和 AI 分析进行告警聚合
  • 事件管理层:处理事件生命周期和自动化响应
  • AI 分析服务:提供智能分析和决策支持
  • 用户界面:提供直观的可视化和操作界面

适用场景

  • 大规模云环境监控:管理来自多云平台的海量告警
  • 微服务架构监控:处理复杂依赖关系下的服务告警
  • 混合 IT 环境管理:统一管理传统 IT 和云原生环境的告警
  • DevOps 实践支持:加速问题定位和解决,支持快速迭代
  • SRE 团队赋能:提供智能工具,提高可靠性工程效率

核心技术创新

1. AlertMind AI 引擎

  • 级联推理:大模型理解 + 专用模型精确分析
  • 领域特化:专门针对告警场景训练的 Transformer 模型
  • 性能优化:推理延迟 < 3 秒,准确率 > 90%

2. 增强的规则引擎

  • CEL 表达式:使用 Common Expression Language 定义复杂规则
  • 动态配置:支持热更新,无需重启服务
  • 多维度匹配:时间、内容、拓扑多维度关联分析

3. 智能工作流

  • 可视化编排:拖拽式工作流设计器
  • 丰富的连接器:100+ Provider 支持
  • 条件分支:支持复杂的业务逻辑判断

技术架构亮点

  • 云原生设计:基于 Kubernetes 的微服务架构
  • 高可用保障:多副本部署,故障自动转移
  • 水平扩展:支持按需扩容,应对流量峰值
  • 安全合规:多租户隔离,完整的审计日志

基于 Apache 2.0 许可发布