节点磁盘压力怎么处理？容器镜像与日志清理实践

Kubernetes节点磁盘压力经常被误认为是“机器空间不够”，但真正原因可能来自镜像层堆积、容器日志过大、emptyDir 临时文件失控、运行时缓存异常、Pod 不断重启产生历史数据，或者应用把业务文件写到了容器本地。磁盘压力一旦触发，节点可能驱逐 Pod，新 Pod 可能无法创建，镜像拉取和容器启动也会变慢。

处理磁盘压力不能只靠临时删除文件。生产环境需要先判断空间被谁占用，再区分短期止血和长期治理。盲目清理运行时目录可能破坏容器状态，直接删除日志也可能丢失故障证据。

先区分NodeFS和ImageFS

Kubernetes 中磁盘压力可能来自 NodeFS 或 ImageFS。NodeFS 通常包括节点根文件系统、容器日志、emptyDir 等数据；ImageFS 通常用于存放镜像层和容器可写层，具体取决于运行时和节点配置。有些环境二者在同一磁盘上，有些环境会拆分。

区分来源很重要。如果主要是镜像层占满，治理重点是镜像垃圾回收、镜像体积和发布频率；如果主要是容器日志或 emptyDir，占用则要看日志轮转、应用写入路径和临时文件清理。

可以先从节点事件、监控和运行时信息判断：

kubectl describe node <node_name>
crictl images
crictl ps -a

这些命令能帮助确认节点是否已经出现 DiskPressure、镜像数量是否异常、是否有大量退出容器。

镜像层堆积怎么治理

镜像层堆积常见于发布频繁、镜像体积大、tag 变化多、节点长时间不回收的环境。Kubelet 有镜像垃圾回收机制，会根据磁盘水位清理未使用镜像。但如果阈值配置不合理、镜像仍被容器引用、发布节奏过快，垃圾回收未必及时。

治理镜像占用应从源头开始。第一，控制镜像体积，减少不必要依赖和构建缓存。第二，规范 tag 和 digest，避免无意义重复镜像。第三，合理设置节点镜像回收阈值。第四，对高频发布应用评估节点容量和镜像预热策略。

不要在生产节点上随意删除运行时目录。应使用运行时和 Kubernetes 支持的清理方式，并确认镜像未被正在运行的容器使用。

容器日志为什么会撑爆磁盘

容器日志如果没有轮转，很容易占满节点磁盘。高频访问日志、重复错误堆栈、调试日志、健康检查日志都可能快速增长。尤其是应用异常后持续输出错误，几小时内就可能制造大量日志。

日志治理需要应用和平台一起做。应用侧要降低无价值高频日志，避免把大对象、循环调试信息和敏感信息输出到日志。平台侧要配置容器日志轮转、采集器缓冲和日志平台保留策略。

需要注意的是，日志被采集到远端平台后，本地文件仍可能存在。远端采集不等于本地自动清理。节点日志轮转和采集链路都要单独确认。

emptyDir和本地临时文件要限制

emptyDir 适合临时文件，但如果应用没有清理机制，或者批处理任务写入大量中间数据，节点磁盘仍会被占满。Pod 删除后 emptyDir 会消失，但在 Pod 运行期间，它占用的是节点本地资源。

建议对使用 emptyDir 的应用明确容量预期，必要时设置 sizeLimit，并监控使用量。对于可能产生大量临时数据的任务，应评估是否使用专门存储、对象存储或独立节点池，而不是默认写到节点根盘。

业务应用不应把长期数据写入容器本地文件系统。容器重建后数据可能丢失，节点磁盘也难以治理。需要持久化的数据应使用 PVC 或外部存储服务。

驱逐机制如何影响业务

当节点磁盘压力达到阈值，Kubelet 可能驱逐 Pod 以回收资源。被驱逐的 Pod 会显示 Evicted 状态，控制器可能在其他节点重建副本。驱逐能保护节点，但对业务来说仍然是可用性事件。

哪些 Pod 先被驱逐，受 QoS、资源使用和优先级影响。BestEffort 或超出 Request 较多的 Pod 更容易被驱逐。磁盘压力下，即使 CPU 和内存正常，业务也可能出现副本减少、发布卡住或服务抖动。

平台应监控 DiskPressure、Evicted Pod 数量、节点磁盘水位、镜像占用、日志增长速率和 emptyDir 使用趋势。等节点已经不可用再处理，通常已经影响业务。

短期止血和长期治理

短期止血包括确认占用来源、清理未使用镜像、降低高频日志、删除无用 Evicted Pod 记录、迁移异常任务、扩容节点磁盘或排空问题节点。止血动作要尽量通过平台和运行时工具完成，避免手工删除关键目录。

长期治理则包括镜像体积优化、日志轮转、日志采样、emptyDir 限额、节点磁盘分区规划、镜像垃圾回收阈值、发布频率控制和容量预测。对于高写入任务，可以使用专用节点池，把风险与普通在线服务隔离。

磁盘治理不应只由运维兜底。研发需要知道哪些路径可以写、日志量是否合理、临时文件是否清理；平台需要提供默认限制和告警；安全与合规需要明确日志保留要求。

常见问题

节点DiskPressure一定是镜像太多吗？

不一定。镜像层、容器日志、emptyDir、容器可写层、系统日志和应用本地文件都可能造成磁盘压力。应先确认占用来源，再决定清理方式。只清理镜像可能无法解决日志或临时文件导致的问题。

可以直接删除containerd目录释放空间吗？

不建议。直接删除运行时目录可能破坏正在运行的容器和镜像状态，导致节点异常。应使用运行时工具、Kubelet垃圾回收或节点排空后的标准维护流程。遇到紧急情况也要先保留证据并评估影响。

日志已经采集到远端，为什么本地还会占满？

远端采集不代表本地日志自动删除。容器运行时仍会在节点保存日志文件，需要配置本地轮转和大小限制。采集器异常、输出端阻塞或应用高频输出时，本地日志增长可能更快。

如何预防镜像拉取导致磁盘压力？

可以从缩小镜像体积、控制发布频率、清理未使用镜像、配置垃圾回收阈值和合理规划节点磁盘入手。对核心应用可以使用镜像预热，但不要用预热掩盖镜像过大和版本混乱问题。

结语

节点磁盘压力处理的关键，是把镜像、日志、临时文件和运行时缓存分开看。短期要安全止血，长期要通过镜像治理、日志轮转、emptyDir限制和容量规划降低复发概率。磁盘空间不是单纯机器问题，而是容器平台治理能力的一部分。

原创声明：本文为 CNBPA 云原生社区原创技术内容，非商业转载须注明出处：https://www.cloudnative-tech.com/p/7491/。文中原创图示、架构图和文章内容未经许可不得用于商业转载、培训课件、营销材料或二次分发。

节点磁盘压力怎么处理？容器镜像与日志清理实践

先区分NodeFS和ImageFS

镜像层堆积怎么治理

容器日志为什么会撑爆磁盘

emptyDir和本地临时文件要限制

驱逐机制如何影响业务

短期止血和长期治理

常见问题

节点DiskPressure一定是镜像太多吗？

可以直接删除containerd目录释放空间吗？

日志已经采集到远端，为什么本地还会占满？

如何预防镜像拉取导致磁盘压力？

结语

相关推荐

StorageClass绑定失败怎么处理？动态存储供给排查

容器网络排障怎么做？Kubernetes网络故障定位实践

什么是Sidecar容器？和Init容器有什么区别

容器编排是什么？从Docker Compose到Kubernetes

DaemonSet适合什么场景？节点级服务部署实践