SRE技术空间站 LONG LIVE SRE | CLOUDNATIVE | KUBERNETES | DOCKER | DEVOPS | PROMETHEUS ...

告警平台V1.0

监控无数,告警乱飞,历史难查,进度难寻。 随着接入监控的团队和集群越来越多,告警管理也变的异常重要。由于网络的限制,无法使用类似快猫、睿象云等SAAS告警系统,所以就自己开发一套简单的告警平台,满足日常的业务需求。 该平台主要有以下特性: 告警分组:借鉴快猫协作空间的理念,这里使用协作空间进行告警分

乔克 发布于 2024-11-17

【夜莺监控】海王——Categraf

有没有人和我一样,遇到同样的困惑:当我使用 Prometheus 来搭建监控体系的时候,每当有一个组件需要监控,我就要为其增加一个 exporter,如果有 10 个组

乔克 发布于 2024-11-15

【夜莺监控】告警管理,香!

监控是方法,告警是手段,解决是目的。 但是,大家有没有遇到这种困惑。我收集了一大堆指标,但是我不知道哪些指标应该告警,也不IJ

乔克 发布于 2024-11-15

【夜莺监控】从日志提取指标的瑞士军刀

mtail是谷歌开源的一款从应用日志提取 metrics 的工具,它会实时读取应用程序的日志,然后通过自己编写的脚本分析日志,最终生成时间序列的১

乔克 发布于 2024-11-15

错误跟踪系统Sentry到底是何方神圣?

作者:乔克 公众号:《运维开发故事》 知乎:巧克叔叔 大家好,我是乔克,一名一线运维实践者。 今天和大家分享&

乔克 发布于 2024-11-15

解决ElasticSearch的maximum shards open问题

问题 ValidationException[Validation Failed: 1: this action would add [2] total shards, but this cluster currently has [999]/[1000] maximum shards open;]

乔克 发布于 2024-11-15

聊聊可观测性

随着分布式架构逐渐成为主流,“可观测性”一词也日益频繁地被人提起,它涉及的范围比较广泛,主要概括为如下三类: 聚合度量(metri

乔克 发布于 2024-11-15

使用SigNoz搭建可观测系统

前言 SigNoz是一个开源的应用程序性能监控工具,可以帮助你监控你的应用程序并排除故障,它可以进行链路追踪、基础设施监控以及日

乔克 发布于 2024-11-15

系统性能指标:洞察系统运行的关键脉搏

前言 在当今数字时代,软件系统在我们的生活和工作中发挥着越来越重要的作用。我们需要确保这些系统能够在高负载、高并发的÷

乔克 发布于 2024-11-15

在Kubernetes中从0打造可观测性

原文:https://k8staz.com/setting-up-open-source-observability-stack-on-kubernetes-from-scratch#heading-testing-endpoints 作者:Staz 在这篇文章中,我们将在Kubernetes中使用

乔克 发布于 2024-11-15