Kubernetes监控怎么做？指标、日志、告警与可观测性体系

Kubernetes监控要覆盖集群控制面、节点、Pod、工作负载、Service、Ingress、应用指标、日志、事件和告警。生产环境不能只看 CPU、内存和 Pod 数量，而要建立从基础设施到业务服务的可观测性体系。

Kubernetes监控为什么比传统主机更复杂

传统监控主要围绕主机、进程和端口。Kubernetes 中，Pod 会动态创建和销毁，应用副本会扩缩容，服务入口通过标签和控制器变化，单靠主机视角很难判断业务状态。

Kubernetes 监控需要同时理解：

集群控制面是否健康
节点资源是否稳定
Pod 是否正常调度和运行
工作负载是否达到期望副本
Service 和 Ingress 是否可用
应用错误率、延迟和吞吐是否正常

监控指标应该分层设计

层级	关注对象	典型指标
集群层	API Server、Scheduler、etcd	请求延迟、错误率、组件健康
节点层	Node、kubelet、容器运行时	CPU、内存、磁盘、网络、节点状态
工作负载层	Pod、Deployment、StatefulSet	Ready副本、重启次数、Pending数量
服务层	Service、Ingress、网关	QPS、错误率、P95/P99延迟
应用层	业务服务	成功率、队列、订单量、任务状态

如果只监控集群层，业务异常发现会滞后；如果只监控业务层，基础设施问题定位会困难。

日志、事件和指标要结合

指标告诉你“发生了什么变化”，日志解释“为什么发生”，事件记录 Kubernetes 资源层面的调度、拉取镜像、探针失败和驱逐原因。三者结合，才能快速定位问题。

例如 Pod 一直重启，指标看到重启次数增加，事件可能显示探针失败，日志才能看到应用启动报错。

告警怎么设计

好的告警不是越多越好，而是要能触发有效响应。建议区分：

紧急告警：生产服务不可用、错误率飙升、控制面异常
重要告警：节点资源压力、Pod 重启异常、发布失败
提醒告警：资源水位偏高、证书即将过期、容量趋势异常

告警必须绑定负责人和处理流程，否则只会变成噪音。

企业可观测性建设建议

统一采集指标、日志、事件和链路数据。
按集群、命名空间、应用、团队和环境组织视图。
对生产应用建立 SLI/SLO。
把发布事件和监控数据关联。
对多集群提供统一看板。
定期复盘告警有效性。

灵雀云 ACP 这类平台适合把 Kubernetes 多集群、应用发布、资源水位和可观测能力放在统一入口，帮助平台团队减少碎片化工具带来的运维成本。

常见误区

只装Prometheus就算完成监控

Prometheus 是指标系统，但完整可观测还需要日志、事件、告警、链路、看板和响应流程。

只看资源不看业务

CPU 正常不代表业务正常。生产应用应接入业务指标和接口指标。

告警没有分级

所有告警都发给所有人，最后会导致告警疲劳。需要分级、归属和降噪。

监控体系要围绕应用而不是只围绕集群

Kubernetes 监控不能只展示节点 CPU、Pod 数量和集群状态。业务团队真正需要知道的是：应用是否可用、接口是否变慢、错误率是否升高、发布后是否异常、资源瓶颈在哪里。平台团队则需要同时看到集群容量、节点健康、控制面状态和组件告警。

建议把指标分成四层：

基础设施层：节点、磁盘、网络、容器运行时和 kubelet。
Kubernetes对象层：Pod、Deployment、Service、Ingress、PVC 和事件。
应用层：请求量、错误率、延迟、队列积压和业务指标。
平台运营层：资源利用率、配额使用、告警收敛和容量趋势。

好的 Kubernetes 监控不是指标越多越好，而是能把故障从用户体验一路定位到应用、Pod、节点和依赖组件。

告警要避免噪音和漏报

告警规则应按业务影响分级。节点短暂抖动、Pod 自动重启一次不一定需要立即打扰值班人员；核心服务不可用、控制面异常、磁盘持续高水位、证书即将过期、生产 Deployment 发布失败则应明确升级。

建议每条告警都包含影响范围、可能原因、排查入口和负责人。否则告警只能制造焦虑，无法真正提升稳定性。

结语

Kubernetes监控的目标不是收集更多数据，而是让平台和业务团队更快发现问题、定位问题和验证变更。企业应从指标、日志、事件、告警和链路追踪出发，建设完整可观测性体系。

FAQ

Kubernetes监控必须用Prometheus吗？

Prometheus 很常见，但不是唯一选择。关键是指标模型、采集覆盖、告警规则和企业系统集成是否满足需求。

Pod短生命周期会影响日志吗？

会。如果日志只留在本地，Pod 删除后可能丢失。生产环境应集中采集日志。

监控和可观测性有什么区别？

监控偏预设指标和告警，可观测性更强调通过指标、日志、链路和事件理解系统内部状态。

多集群监控怎么做？

可以每个集群本地采集，再汇聚到统一平台；也可以通过多集群管理平台提供统一视图和告警策略。

原创声明：本文为 CNBPA 云原生社区原创技术内容，非商业转载须注明出处：https://www.cloudnative-tech.com/p/7282/。文中原创图示、架构图和文章内容未经许可不得用于商业转载、培训课件、营销材料或二次分发。