2026 可观测性选型指南 - 应对 LLM 加持的研发迭代速度转载

2026年，随着 LLM 对 Coding 的效率加持，软件迭代速度越来越快。但从 SRE 视角来看，变更乃万恶之源——迭代越快，稳定性风险越高。因此，监控与可观测性体系的重要性愈发凸显。

这个领域竞争激烈，开源与商业产品百花齐放。本文基于笔者的实践经验，梳理当前主流方案并给出选型建议，希望对大家有所帮助。

选型原则：优先选择成熟的开源方案；在开源方案能力不足的细分领域，再考虑商业产品。

服务端的可观测性体系架构如下图所示：

76b1aefe09f0290e82f2d41a97718a3f MD5

核心模块包括：

数据采集：覆盖操作系统、网络设备、中间件、业务应用等，采集指标、日志、链路追踪数据
数据存储：可观测性数据量庞大，需要专用存储引擎，如时序数据库（TSDB）、日志存储等
告警引擎与事件管理：告警判定是基础能力，但真正的挑战在于告警之后的事件处理——收敛降噪、排班分派、升级闭环
可视化分析：包括探索式 Ad-hoc 查询、统计报表、以及跨数据源的关联下钻分析

数据采集

采集层分为指标、日志、链路追踪三类数据。

指标采集：首选 Prometheus Exporter 生态。其优势在于：生态成熟、社区活跃，几乎所有主流组件都有现成的 Exporter，配套的仪表盘和告警规则也很丰富。Exporter 协议中立，可以对接任意兼容 Prometheus 的后端。如果你的监控系统自带采集器（如 Telegraf、Alloy、Metricbeat、Categraf），也是不错的选择，集成体验更顺畅。

日志采集：这个领域尚未出现绝对主流的方案。目前使用较多的包括 Filebeat、Fluent Bit、Vector、OTel Collector。值得一提的是，Grafana 已弃用 Promtail，转而主推 Alloy（本质是 OTel 的一个发行版）。

链路追踪：OpenTelemetry（OTel）已经成为事实标准。它开源中立、不绑定供应商，社区活跃度极高，几乎所有主流 APM 厂商都支持 OTel 协议。连 Jaeger 都放弃了自有 SDK，全面拥抱 OTel。因此，链路追踪埋点直接选 OTel 即可。官网：https://opentelemetry.io/

数据存储

存储是可观测性平台的基石，也是各方角力最激烈的领域。

指标存储：首选 VictoriaMetrics。它完全兼容 Prometheus 查询接口，原生支持集群部署，性能优异且稳定可靠。国内外众多大型互联网公司已在生产环境大规模使用，经受住了严苛的考验。官网：https://victoriametrics.com/

日志存储：目前主要有三个流派：

OLAP 引擎：如 ClickHouse、Doris，凭借强大的列式存储和压缩能力切入日志场景
原生日志引擎：如 Splunk、Loki、VictoriaLogs，专为日志检索场景设计
全文检索引擎：如 Elasticsearch、OpenSearch，生态最为成熟

选型建议：

求稳：选 Elasticsearch，生态完善，社区庞大，是这个领域的标杆
求新：选 VictoriaLogs，VM 团队对性能和架构的极致追求令人期待
求统一：选 Doris，国产 OLAP 引擎，未来有望实现指标、日志、链路的存储统一

链路追踪存储：

如果团队有自研能力，ClickHouse 是理想的 Tracing 后端——链路数据结构与日志相似，且 Schema 相对固定，非常适合列式存储。

如果需要开箱即用的完整方案：

SkyWalking：国内使用最广泛，功能完善
SigNoz：OTel 社区最活跃的项目之一，底层基于 ClickHouse，官网：https://signoz.io/
Grafana Tempo：Grafana 全家桶用户的最佳选择
Jaeger v2：轻量务实，满足基础 Tracing 需求
VictoriaTraces：新晋黑马，值得关注

告警引擎与事件管理

告警体系可以分为两层来看：告警判定和事件管理。

1. 告警判定

告警判定有两种架构思路：

领域专属方案：各存储引擎自带的告警能力，如 Prometheus Alertmanager、VictoriaMetrics vmalert、Zabbix、ElastAlert 等。优点是与数据源深度集成，配置简单；缺点是告警规则分散在各个系统中，难以统一管理。

多数据源统一方案：如 Grafana Alerting、Nightingale 等，可以对接指标、日志、OLAP 等多种数据源，实现告警规则的集中管理。其中 Nightingale 还提供了告警事件的 Pipeline 处理能力，这在开源方案中较为稀有。

2. 事件管理（On-call）

告警判定只是起点，真正的挑战在于告警之后：

告警风暴时如何有效收敛降噪？
如何根据值班表自动分派到正确的人？
告警长时间未处理时如何自动升级？
如何追踪事件的处理闭环？

这个领域开源方案相对匮乏，商业产品更为成熟。国外有 PagerDuty、Opsgenie，国内可以看看 Flashduty（ https://console.flashcat.cloud/ ）。Flashduty 的定价模式对中小团队比较友好——告警引擎完全免费，On-call 模块按活跃用户计费且有免费额度，适合先用起来再根据需求升级。

可视化分析

这个领域 Grafana 一家独大，几乎已成行业标准。它支持几十种数据源，仪表盘生态丰富，社区活跃。如果使用 Elasticsearch 存储日志，Kibana 在日志检索场景下体验更佳，两者可以并存互补。

Grafana 官网：https://grafana.com/

AI 带来的变化

最后聊聊 AI 对可观测性领域的影响。

一个明显的趋势是：交互方式正在改变。传统的可视化大屏强调“炫酷”，但在 AI 时代，用户更关心的是「能不能用自然语言问问题，直接拿到答案」。图表正在从精心设计的 Dashboard 迁移到 AI 对话框中——按需生成、即问即答。

另一个趋势是 AIOps 的落地。异常检测、根因分析、告警降噪等场景，AI 正在从「概念验证」走向「生产可用」。这也是选型时值得关注的能力维度。

a58013a0b950fb3b2d47c53fb1273bc8 MD5

以上就是 2026 年可观测性选型的梳理，核心思路是：采集层拥抱 OTel 生态，存储层选择经过验证的开源方案，告警与事件管理可以借助成熟的商业产品提效。

2026 可观测性选型指南 - 应对 LLM 加持的研发迭代速度 转载 ​

数据采集 ​

数据存储 ​

告警引擎与事件管理 ​

1. 告警判定 ​

2. 事件管理（On-call） ​

可视化分析 ​

AI 带来的变化 ​