2026 可观测性选型指南 - 应对 LLM 加持的研发迭代速度 转载
2026年,随着 LLM 对 Coding 的效率加持,软件迭代速度越来越快。但从 SRE 视角来看,变更乃万恶之源——迭代越快,稳定性风险越高。因此,监控与可观测性体系的重要性愈发凸显。
这个领域竞争激烈,开源与商业产品百花齐放。本文基于笔者的实践经验,梳理当前主流方案并给出选型建议,希望对大家有所帮助。
选型原则:优先选择成熟的开源方案;在开源方案能力不足的细分领域,再考虑商业产品。
服务端的可观测性体系架构如下图所示:

核心模块包括:
- 数据采集:覆盖操作系统、网络设备、中间件、业务应用等,采集指标、日志、链路追踪数据
- 数据存储:可观测性数据量庞大,需要专用存储引擎,如时序数据库(TSDB)、日志存储等
- 告警引擎与事件管理:告警判定是基础能力,但真正的挑战在于告警之后的事件处理——收敛降噪、排班分派、升级闭环
- 可视化分析:包括探索式 Ad-hoc 查询、统计报表、以及跨数据源的关联下钻分析
数据采集
采集层分为指标、日志、链路追踪三类数据。
指标采集:首选 Prometheus Exporter 生态。其优势在于:生态成熟、社区活跃,几乎所有主流组件都有现成的 Exporter,配套的仪表盘和告警规则也很丰富。Exporter 协议中立,可以对接任意兼容 Prometheus 的后端。如果你的监控系统自带采集器(如 Telegraf、Alloy、Metricbeat、Categraf),也是不错的选择,集成体验更顺畅。
日志采集:这个领域尚未出现绝对主流的方案。目前使用较多的包括 Filebeat、Fluent Bit、Vector、OTel Collector。值得一提的是,Grafana 已弃用 Promtail,转而主推 Alloy(本质是 OTel 的一个发行版)。
链路追踪:OpenTelemetry(OTel)已经成为事实标准。它开源中立、不绑定供应商,社区活跃度极高,几乎所有主流 APM 厂商都支持 OTel 协议。连 Jaeger 都放弃了自有 SDK,全面拥抱 OTel。因此,链路追踪埋点直接选 OTel 即可。官网:https://opentelemetry.io/
数据存储
存储是可观测性平台的基石,也是各方角力最激烈的领域。
指标存储:首选 VictoriaMetrics。它完全兼容 Prometheus 查询接口,原生支持集群部署,性能优异且稳定可靠。国内外众多大型互联网公司已在生产环境大规模使用,经受住了严苛的考验。官网:https://victoriametrics.com/
日志存储:目前主要有三个流派:
- OLAP 引擎:如 ClickHouse、Doris,凭借强大的列式存储和压缩能力切入日志场景
- 原生日志引擎:如 Splunk、Loki、VictoriaLogs,专为日志检索场景设计
- 全文检索引擎:如 Elasticsearch、OpenSearch,生态最为成熟
选型建议:
- 求稳:选 Elasticsearch,生态完善,社区庞大,是这个领域的标杆
- 求新:选 VictoriaLogs,VM 团队对性能和架构的极致追求令人期待
- 求统一:选 Doris,国产 OLAP 引擎,未来有望实现指标、日志、链路的存储统一
链路追踪存储:
如果团队有自研能力,ClickHouse 是理想的 Tracing 后端——链路数据结构与日志相似,且 Schema 相对固定,非常适合列式存储。
如果需要开箱即用的完整方案:
- SkyWalking:国内使用最广泛,功能完善
- SigNoz:OTel 社区最活跃的项目之一,底层基于 ClickHouse,官网:https://signoz.io/
- Grafana Tempo:Grafana 全家桶用户的最佳选择
- Jaeger v2:轻量务实,满足基础 Tracing 需求
- VictoriaTraces:新晋黑马,值得关注
告警引擎与事件管理
告警体系可以分为两层来看:告警判定和事件管理。
1. 告警判定
告警判定有两种架构思路:
领域专属方案:各存储引擎自带的告警能力,如 Prometheus Alertmanager、VictoriaMetrics vmalert、Zabbix、ElastAlert 等。优点是与数据源深度集成,配置简单;缺点是告警规则分散在各个系统中,难以统一管理。
多数据源统一方案:如 Grafana Alerting、Nightingale 等,可以对接指标、日志、OLAP 等多种数据源,实现告警规则的集中管理。其中 Nightingale 还提供了告警事件的 Pipeline 处理能力,这在开源方案中较为稀有。
2. 事件管理(On-call)
告警判定只是起点,真正的挑战在于告警之后:
- 告警风暴时如何有效收敛降噪?
- 如何根据值班表自动分派到正确的人?
- 告警长时间未处理时如何自动升级?
- 如何追踪事件的处理闭环?
这个领域开源方案相对匮乏,商业产品更为成熟。国外有 PagerDuty、Opsgenie,国内可以看看 Flashduty( https://console.flashcat.cloud/ )。Flashduty 的定价模式对中小团队比较友好——告警引擎完全免费,On-call 模块按活跃用户计费且有免费额度,适合先用起来再根据需求升级。
可视化分析
这个领域 Grafana 一家独大,几乎已成行业标准。它支持几十种数据源,仪表盘生态丰富,社区活跃。如果使用 Elasticsearch 存储日志,Kibana 在日志检索场景下体验更佳,两者可以并存互补。
Grafana 官网:https://grafana.com/
AI 带来的变化
最后聊聊 AI 对可观测性领域的影响。
一个明显的趋势是:交互方式正在改变。传统的可视化大屏强调“炫酷”,但在 AI 时代,用户更关心的是「能不能用自然语言问问题,直接拿到答案」。图表正在从精心设计的 Dashboard 迁移到 AI 对话框中——按需生成、即问即答。
另一个趋势是 AIOps 的落地。异常检测、根因分析、告警降噪等场景,AI 正在从「概念验证」走向「生产可用」。这也是选型时值得关注的能力维度。

以上就是 2026 年可观测性选型的梳理,核心思路是:采集层拥抱 OTel 生态,存储层选择经过验证的开源方案,告警与事件管理可以借助成熟的商业产品提效。