Kubernetes节点是集群中的服务器资源单元,可以是物理机、虚拟机或云主机。控制面节点负责集群管理和调度决策,工作节点负责运行 Pod 和业务容器。理解节点,是理解 Kubernetes 集群容量、调度、故障恢复和资源治理的基础。

Master、Worker和Node怎么理解
早期文档常用 Master 表示控制面节点,用 Worker 表示工作节点。现在更推荐使用 Control Plane 和 Worker Node 的说法。Node 是泛称,表示 Kubernetes 集群中的一个节点资源。
| 类型 | 主要职责 | 是否承载业务 |
|---|---|---|
| 控制面节点 | API、调度、状态管理、控制器 | 通常不承载 |
| 工作节点 | 运行Pod、容器和网络代理 | 是 |
| 混合节点 | 学习或小规模环境中兼顾管理和业务 | 不建议生产使用 |
生产环境通常会把控制面和工作负载分开,避免业务压力影响集群管理能力。
工作节点上有什么组件
一个工作节点通常包含:
- kubelet:负责和控制面通信,管理本节点 Pod 生命周期
- 容器运行时:负责启动容器,例如 containerd
- kube-proxy 或替代组件:负责服务转发规则
- CNI 网络插件:负责 Pod 网络
- CSI 存储插件:负责卷挂载
- 节点监控和日志采集组件
这些组件共同决定节点能否稳定承载业务。

节点状态怎么看
Kubernetes 会为节点维护状态条件,例如 Ready、MemoryPressure、DiskPressure、PIDPressure、NetworkUnavailable。生产环境里,节点不是只看在线与否,还要看是否出现资源压力和组件异常。
常见节点异常包括:
- 磁盘压力导致镜像无法拉取或 Pod 被驱逐
- 内存压力导致业务 Pod 被驱逐
- kubelet 异常导致节点状态不可用
- 网络插件异常导致 Pod 无法通信
- 节点资源碎片化导致调度失败
节点资源如何影响调度
调度器会根据 Pod 的 Request、节点可用资源、亲和性、污点容忍、拓扑分布等规则选择节点。如果节点资源不足或规则过严,Pod 会 Pending。
企业应避免把节点当成固定机器手工分配,而应通过标签、污点、资源池和调度策略管理节点用途。
企业节点管理建议
- 按业务类型划分节点池,例如通用业务、GPU、数据库、边缘节点。
- 使用节点标签描述硬件、区域、用途和资源等级。
- 对特殊节点使用污点,避免普通 Pod 误调度。
- 监控 CPU、内存、磁盘、网络和 Pod 密度。
- 定期做节点升级、内核补丁和容量规划。
- 结合多集群平台统一管理不同环境节点。
灵雀云 ACP 这类平台适合把节点池、多集群、资源水位和运维告警统一管理,减少人工维护节点带来的风险。
常见误区
节点越多越稳定
节点多能提升容量,但如果没有合理调度、监控和故障隔离,也可能增加管理复杂度。
控制面节点可以随便跑业务
学习环境可以,生产环境不建议。控制面稳定性优先级很高。
节点NotReady一定是机器宕机
不一定,也可能是 kubelet、网络、证书、磁盘或控制面通信异常。
节点管理不能只看Ready状态
Kubernetes 节点显示 Ready 只代表 kubelet 与控制面通信正常,并不等于节点适合承载所有业务。生产环境还要关注 CPU、内存、磁盘、网络、容器运行时、系统内核参数、镜像缓存和节点池标签等状态。很多集群故障并不是节点直接宕机,而是节点资源水位异常、磁盘压力、网络抖动或插件异常导致 Pod 无法稳定运行。
建议平台团队把节点管理拆成三层:
- 基础健康:节点是否 Ready、kubelet 是否正常、容器运行时是否可用。
- 资源水位:CPU、内存、磁盘、PID、网络吞吐是否接近阈值。
- 调度适配:标签、污点、亲和性和节点池是否与业务类型匹配。
判断节点是否健康,不能只看一个状态字段,而要看它是否还能稳定承载下一批工作负载。
Master和Worker的运维重点不同
控制面节点更关注稳定性、备份和版本一致性,工作节点更关注容量、隔离和故障替换。etcd 备份、证书有效期、控制面组件监控属于高优先级事项;而 Worker 节点则需要重点管理镜像垃圾回收、磁盘空间、节点池扩容和驱逐策略。
企业集群通常会按业务类型划分节点池,例如通用服务节点池、GPU 节点池、数据库或中间件专用节点池、边缘节点池。这样可以让关键业务获得更可控的资源边界,也能避免不同负载互相干扰。
结语
Kubernetes节点是集群资源管理的基本单元。控制面节点负责管理决策,工作节点负责运行 Pod。企业要把节点纳入资源池、标签、监控、调度和生命周期管理,而不是把它们当成普通服务器手工维护。
FAQ
Kubernetes节点必须是物理机吗?
不必须。节点可以是物理机、虚拟机或云主机,只要运行必要组件并加入集群即可。
一个节点可以运行多少Pod?
取决于节点资源、网络插件、Kubernetes配置和业务资源需求。生产环境不应只看理论上限,要结合监控和稳定性设置。
节点NotReady怎么办?
先检查 kubelet 状态、节点资源压力、网络连通、证书、容器运行时和系统日志,再判断是否需要驱逐或替换节点。
GPU节点如何管理?
GPU节点应单独打标签、配置驱动和插件,并通过污点、队列或调度平台控制哪些任务可以使用。
转载请注明出处:https://www.cloudnative-tech.com/p/7277/