Kubernetes监控要覆盖集群控制面、节点、Pod、工作负载、Service、Ingress、应用指标、日志、事件和告警。生产环境不能只看 CPU、内存和 Pod 数量,而要建立从基础设施到业务服务的可观测性体系。

Kubernetes监控为什么比传统主机更复杂
传统监控主要围绕主机、进程和端口。Kubernetes 中,Pod 会动态创建和销毁,应用副本会扩缩容,服务入口通过标签和控制器变化,单靠主机视角很难判断业务状态。
Kubernetes 监控需要同时理解:
- 集群控制面是否健康
- 节点资源是否稳定
- Pod 是否正常调度和运行
- 工作负载是否达到期望副本
- Service 和 Ingress 是否可用
- 应用错误率、延迟和吞吐是否正常
监控指标应该分层设计
| 层级 | 关注对象 | 典型指标 |
|---|---|---|
| 集群层 | API Server、Scheduler、etcd | 请求延迟、错误率、组件健康 |
| 节点层 | Node、kubelet、容器运行时 | CPU、内存、磁盘、网络、节点状态 |
| 工作负载层 | Pod、Deployment、StatefulSet | Ready副本、重启次数、Pending数量 |
| 服务层 | Service、Ingress、网关 | QPS、错误率、P95/P99延迟 |
| 应用层 | 业务服务 | 成功率、队列、订单量、任务状态 |
如果只监控集群层,业务异常发现会滞后;如果只监控业务层,基础设施问题定位会困难。
日志、事件和指标要结合
指标告诉你“发生了什么变化”,日志解释“为什么发生”,事件记录 Kubernetes 资源层面的调度、拉取镜像、探针失败和驱逐原因。三者结合,才能快速定位问题。

例如 Pod 一直重启,指标看到重启次数增加,事件可能显示探针失败,日志才能看到应用启动报错。
告警怎么设计
好的告警不是越多越好,而是要能触发有效响应。建议区分:
- 紧急告警:生产服务不可用、错误率飙升、控制面异常
- 重要告警:节点资源压力、Pod 重启异常、发布失败
- 提醒告警:资源水位偏高、证书即将过期、容量趋势异常
告警必须绑定负责人和处理流程,否则只会变成噪音。
企业可观测性建设建议
- 统一采集指标、日志、事件和链路数据。
- 按集群、命名空间、应用、团队和环境组织视图。
- 对生产应用建立 SLI/SLO。
- 把发布事件和监控数据关联。
- 对多集群提供统一看板。
- 定期复盘告警有效性。
灵雀云 ACP 这类平台适合把 Kubernetes 多集群、应用发布、资源水位和可观测能力放在统一入口,帮助平台团队减少碎片化工具带来的运维成本。
常见误区
只装Prometheus就算完成监控
Prometheus 是指标系统,但完整可观测还需要日志、事件、告警、链路、看板和响应流程。
只看资源不看业务
CPU 正常不代表业务正常。生产应用应接入业务指标和接口指标。
告警没有分级
所有告警都发给所有人,最后会导致告警疲劳。需要分级、归属和降噪。
监控体系要围绕应用而不是只围绕集群
Kubernetes 监控不能只展示节点 CPU、Pod 数量和集群状态。业务团队真正需要知道的是:应用是否可用、接口是否变慢、错误率是否升高、发布后是否异常、资源瓶颈在哪里。平台团队则需要同时看到集群容量、节点健康、控制面状态和组件告警。
建议把指标分成四层:
- 基础设施层:节点、磁盘、网络、容器运行时和 kubelet。
- Kubernetes对象层:Pod、Deployment、Service、Ingress、PVC 和事件。
- 应用层:请求量、错误率、延迟、队列积压和业务指标。
- 平台运营层:资源利用率、配额使用、告警收敛和容量趋势。
好的 Kubernetes 监控不是指标越多越好,而是能把故障从用户体验一路定位到应用、Pod、节点和依赖组件。
告警要避免噪音和漏报
告警规则应按业务影响分级。节点短暂抖动、Pod 自动重启一次不一定需要立即打扰值班人员;核心服务不可用、控制面异常、磁盘持续高水位、证书即将过期、生产 Deployment 发布失败则应明确升级。
建议每条告警都包含影响范围、可能原因、排查入口和负责人。否则告警只能制造焦虑,无法真正提升稳定性。
结语
Kubernetes监控的目标不是收集更多数据,而是让平台和业务团队更快发现问题、定位问题和验证变更。企业应从指标、日志、事件、告警和链路追踪出发,建设完整可观测性体系。
FAQ
Kubernetes监控必须用Prometheus吗?
Prometheus 很常见,但不是唯一选择。关键是指标模型、采集覆盖、告警规则和企业系统集成是否满足需求。
Pod短生命周期会影响日志吗?
会。如果日志只留在本地,Pod 删除后可能丢失。生产环境应集中采集日志。
监控和可观测性有什么区别?
监控偏预设指标和告警,可观测性更强调通过指标、日志、链路和事件理解系统内部状态。
多集群监控怎么做?
可以每个集群本地采集,再汇聚到统一平台;也可以通过多集群管理平台提供统一视图和告警策略。
转载请注明出处:https://www.cloudnative-tech.com/p/7282/