如何排查Kubernetes的组件问题原创

Kubernetes 的基础组件就像一栋房子的地基，它们的重要性不言而喻。作为 Kubernetes 集群的维护者，经常会遇到组件的问题，那平时是怎么去定位解决的呢？

这里简要分析一下我的排查思路。

通过集群的状态，找到故障的节点或者组件
分析组件的日志
使用 pprof 分析组件的具体性能

确定范围

Kubernetes 的基础组件不多，而且部署也非常简单，所以在定义范围的时候还是很容易的，比如我们在使用kubectl get nodes的时候，如果某个节点的状态是NotReady，我们脑海中是不是会出现两种可能？

（1）节点的 kubelet 组件有问题

（2）节点的网络组件有问题

这样一来，大体方向已经确定了，然后就是做排除法了。

这里为何说是排除法？因为在解决问题的途中，我们通常会采用先假设再验证的方式进行，先把所以可能的因素列出来，然后一个一个的去验证去排除，直到解决问题。

分析日志

日志分析是故障排查最直接的方式，大部分问题都能从日志里体现出来，Kubernetes 的组件日志查看方式通常有两种：

通过 systemd 启动的服务，使用journalctl -l -u xxxx
使用静态 pod 启动的服务，使用kubectl logs -n kube-system $PODNAME --tail 100

当然，很多时候不仅仅是分析它本身的问题，我们还会关注周边的问题，比如基础设施的 CPU、内存、IO 等情况，这样进行综合考虑来找出问题。

性能分析

为什么把性能分析放到最后呢？

对于大部分人来说，并不擅长，也不喜欢分析组件的性能。第一是时间比较长，第二是要对各个性能指标有一定的了解，第三是学习成本比较大。

众所周知，Kubernetes 的版本迭代比较快，基本一年会发 2-3 个版本，如此快的迭代速度，不排除一些版本中存在 BUG，存在一些性能问题。所以在实在没招的情况下，可以尝试对其组件的性能进行分析。

Kubernetes 是使用 Golang 开发，而 Golang 的 pprof 是性能分析的利器，提供交互式界面和 UI 图形化，比较直观，可以很方便的找出问题。除此之外，还可以使用 go-torch 将 profile 数据生成火焰图，这样会更直观。

Kubernetes 的组件都可以使用pprof进行性能分析，界面在host:port/debug/pprof/。

pprof 的常用方式

使用交互式命令

1.查看堆栈调用信息

bash


go tool pprof http://localhost:8001/debug/pprof/heap

2.查看 30 秒内的 CPU 信息

bash


go tool pprof http://localhost:8001/debug/pprof/profile?seconds=30

3.查看 goroutine 阻塞

plain


go tool pprof http://localhost:8001/debug/pprof/block

4.收集 5 秒内的执行路径

plain


go tool pprof http://localhost:8001/debug/pprof/trace?seconds=5

5.争用互斥持有者的堆栈跟踪

plain


go tool pprof http://localhost:8001/debug/pprof/mutex

通过 UI 界面

UI 分析工具使用起来相对比较麻烦，我们需要先导出文件，然后再使用go tool工具起服务进行分析。

比如我们导出 kube-scheduler 的堆栈信息。

plain


curl -sK -v http://localhost:10251/debug/pprof/heap > heap.out

然后使用 go tool 工具起一个服务，如下：

plain


go tool pprof -http=0.0.0.0:8989 heap.out

然后就可以在浏览器上看到具体的堆栈信息图了。

e5346f09a844e16ab25db095f200df8c MD5

注意，这里需要在服务端安装graphviz组件，各种操作系统的安装方式见[3]。

UI 界面主要的菜单以及其功能简要介绍如下：

VIEW：查看模式
Top：从高到底排序查看
Graph：默认的模式，以关系图形式查看
Flame Graph：以火焰图形式查看
Peek：排序查看，展示的信息更多
Source：排序查看，带源码标注
Disassemble：现实所有总量
SAMPLE：为 VIEW 提供查看模式
alloc_objects：已分配的对象总量（不管是否已释放
alloc_space：已分配的内存总量（不管是否已释放）
inuse_objects：已分配但尚未释放的对象数量
inuse_sapce：已分配但尚未释放的内存数量
REFINE：提供筛选能力

上面简单介绍了 pprof 的基本使用方法，下面就 Kubernetes 的各个组件进行简单的分析，这里只就 CPU 信息进

行获取以及展示。

注意：由于版本原因，有的版本默认开启了 pprof，有的版本则没有，如果没有开启的，需要自行去开启，参数基本都是profiling: true，具体的信息可以到官网进行查看[4]。

分析 kube-apiserver

（1）使用 kubectl proxy 启动一个代理

bash


kubectl proxy

（2）另起一个终端，获取 CPU 信息

shell


curl -sK -v  http://localhost:8001/debug/pprof/profile >apiserver-cpu.out

（3）使用 go tool 工具启动服务

shell


go tool pprof -http=0.0.0.0:8989 apiserver-cpu.out

（4）在浏览器上进行查看

98ca2a02b66fbf41235df530d9404650 MD5

分析 kube-scheduler

（1）获取 CPU 的信息

bash


curl -sK -v  http://localhost:10251/debug/pprof/profile >scheduler-cpu.out

（2）使用 go tool 工具启动服务

bash


go tool pprof -http=0.0.0.0:8989 scheduler-cpu.out

（3）在浏览器进行查看

41209336b6b613de2c6c7b4e0dbb40de MD5

分析 kube-controller-manager

（1）获取 CPU 的信息

bash


curl -sK -v  http://localhost:10252/debug/pprof/profile >controller-cpu.out

（2）使用 go tool 工具启动服务

bash


go tool pprof -http=0.0.0.0:8989 controller-cpu.out

（3）在浏览器进行查看

da9d2f502c8d0c9b06ac16cfd2bb9bf8 MD5

分析 kubelet

（1）使用 kubectl proxy 启动一个代理

bash


kubectl proxy

（2）另起一个终端，获取 CPU 信息

shell


 curl -sK -v  http://127.0.0.1:8001/api/v1/nodes/k8s-node04-138/proxy/debug/pprof/profile >kubelet-cpu.out

（3）使用 go tool 工具启动服务

shell


go tool pprof -http=0.0.0.0:8989 kubelet-cpu.out

（4）在浏览器上进行查看

4ec7872f49ae9dbbcfb522c06a9e8d09 MD5

能够抓到具体的性能数据才是第一步，后续的具体分析才会帮助我们找到问题。

如何排查Kubernetes的组件问题 原创 ​

确定范围 ​

分析日志 ​

性能分析 ​

pprof 的常用方式 ​

使用交互式命令 ​

通过 UI 界面 ​

分析 kube-apiserver ​

分析 kube-scheduler ​

分析 kube-controller-manager ​

分析 kubelet ​

文档 ​

如何排查Kubernetes的组件问题原创

确定范围

分析日志

性能分析

pprof 的常用方式

使用交互式命令

通过 UI 界面

分析 kube-apiserver

分析 kube-scheduler

分析 kube-controller-manager

分析 kubelet

文档