云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
容器日志怎么采集?Kubernetes日志架构与落地实践
本文围绕Kubernetes容器日志采集展开,解释标准输出、节点采集、Sidecar、日志字段、检索和成本治理,帮助团队建立可排障的日志体系。
-
容器资源限制怎么配置?CPU内存Request与Limit实践
本文解释容器CPU和内存Request、Limit的配置逻辑,从调度、限流、OOM、资源画像和生产校准出发,帮助团队建立可靠的资源治理方法。
-
Kubernetes容器运行时怎么选?containerd与CRI实践
本文围绕Kubernetes容器运行时选型展开,解释CRI、containerd、CRI-O与节点运维边界,帮助团队建立稳定可维护的运行时实践。
-
容器最佳实践怎么落地?生产环境治理清单
本文从镜像、资源、网络、权限、发布、观测和平台治理七个维度梳理容器最佳实践,帮助团队把零散规范沉淀为可执行的生产环境清单。
最新发布
-
企业AI平台运营看什么?资源利用率、SLA与成本指标
本文聚焦企业AI平台运营指标,从GPU利用率、任务等待、推理SLA、模型成本和团队分账解释平台如何持续优化。
-
AI平台多环境怎么设计?开发、训练、评估与生产隔离
本文聚焦AI平台多环境设计,从开发、训练、评估、灰度和生产推理解释资源、数据、权限和模型版本如何隔离治理。
-
AI平台可观测怎么做?训练推理指标、日志与成本监控
本文聚焦AI平台可观测体系,从训练任务、推理服务、GPU资源、日志事件和成本指标解释如何支撑AI基础设施运营。
-
大模型显存不够怎么办?量化、并发与KV Cache优化
本文聚焦大模型显存不够的常见原因,从模型参数、KV Cache、并发、上下文长度和量化策略解释如何优化推理显存使用。
-
推理服务怎么做弹性伸缩?GPU负载、队列与成本治理
本文聚焦推理服务弹性伸缩,从GPU利用率、请求队列、显存、延迟和成本治理解释模型推理负载如何稳定扩缩容。
-
模型发布流程怎么设计?从训练产物到推理服务上线
本文聚焦模型发布流程设计,从训练产物、模型仓库、评估准入、镜像构建、灰度发布和回滚解释如何把模型稳定上线为推理服务。
-
AI训练数据集怎么管理?Kubernetes数据挂载与缓存实践
本文围绕AI训练数据集管理展开,解释Kubernetes环境下数据挂载、缓存、权限、版本和吞吐优化如何影响训练效率与可复现性。
-
分布式训练失败怎么排查?GPU网络存储与Checkpoint实践
本文聚焦分布式训练失败排查,从GPU资源、节点网络、数据存储、镜像环境和Checkpoint恢复解释如何建立AI训练故障定位路径。
-
Kueue适合什么场景?Kubernetes AI任务排队与配额管理
本文解释Kueue在Kubernetes AI任务排队中的适用场景,从ClusterQueue、LocalQueue、ResourceFlavor和配额借用分析如何治理训练任务。
-
Volcano怎么用于AI训练?批调度队列与Gang Scheduling实践
本文聚焦Volcano在AI训练场景中的使用方式,解释队列、PodGroup、Gang Scheduling和优先级策略如何提升分布式训练调度稳定性。
-
GPU资源碎片怎么治理?显存、型号与队列调度优化
本文聚焦GPU资源碎片治理,从整卡、显存、型号、任务队列和调度策略出发,解释如何减少AI集群中“有卡但用不上”的问题。
-
GPU节点怎么纳管?Kubernetes AI集群资源标记实践
本文聚焦GPU节点纳管在Kubernetes AI集群中的落地方法,从节点标签、GPU型号、驱动插件、污点容忍和资源视图解释如何建立可调度的GPU资源底座。
-
容器架构如何演进?从单机Docker到Kubernetes平台
本文从单机Docker、镜像仓库、编排调度、服务治理到平台化治理梳理容器架构演进路径,帮助团队理解容器化不同阶段的重点。
-
容器平台怎么建设?企业级Kubernetes平台治理路径
本文从集群管理、租户隔离、应用交付、资源治理、安全合规和运维运营出发,梳理企业级容器平台建设的阶段路径。
-
节点磁盘压力怎么处理?容器镜像与日志清理实践
本文从镜像层、容器日志、emptyDir、运行时缓存和驱逐机制出发,梳理Kubernetes节点磁盘压力的定位与治理方法。
-
Kubernetes探针怎么配置?容器健康检查实践
本文围绕Kubernetes探针配置展开,解释livenessProbe、readinessProbe和startupProbe的差异、参数设置和生产误区,帮助提升发布稳定性。
-
Kubernetes安全上下文怎么配置?容器权限控制实践
本文围绕Kubernetes安全上下文配置展开,解释runAsUser、privileged、capabilities、只读文件系统和权限基线,帮助团队降低容器运行风险。
-
镜像仓库怎么治理?容器镜像分发与版本管理实践
本文从仓库分层、命名规范、版本标签、权限控制、分发加速和生命周期清理出发,梳理容器镜像仓库治理的生产实践。
-
容器存储卷怎么选?Kubernetes持久化存储实践
本文围绕Kubernetes容器存储卷选型展开,解释emptyDir、hostPath、PV、PVC、StorageClass和CSI的使用边界,帮助团队降低持久化风险。
-
容器网络排障怎么做?Kubernetes网络故障定位实践
本文从Pod访问、Service转发、DNS解析、NetworkPolicy和节点网络五个层面梳理容器网络排障路径,帮助团队快速定位Kubernetes网络问题。