云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
GPU推理成本优化复盘:从独占部署到弹性调度
当GPU推理服务长期独占资源、低峰空闲明显时,成本优化不能只靠降配。本文复盘从资源画像、请求峰谷、显存复用、弹性伸缩到成本归因的治理过程,帮助团队找到可持续优化路径。
-
云原生安全学习路径:从镜像安全到运行时防护
想系统学习云原生安全,可以从镜像安全和基础隔离入手,再进入Kubernetes权限、准入控制、网络策略、审计日志和运行时防护。本文给出适合平台与安全团队的阶段化学习路径。
-
Kubernetes 1.32更新解读:平台团队升级前关注点
Kubernetes版本更新不能只看新增功能,平台团队更需要判断哪些变化会影响控制面、插件、API兼容性和生产升级窗口。本文从升级前检查角度解读Kubernetes 1.32的关注点。
-
K8s入口对比矩阵:Ingress、Gateway API与Service Mesh
K8s入口流量治理不是只有Ingress一种选择。Gateway API提供更强的多角色和扩展模型,Service Mesh则更偏服务治理。本文用矩阵方式比较三类入口方案的能力边界和适用场景。
最新发布
-
Kubernetes DNS解析失败怎么排查:CoreDNS、Service与网络路径
应用访问 Service 超时、域名 NXDOMAIN 或 Pod 内解析偶发失败时,问题可能在 CoreDNS,也可能在 Service、网络策略或节点路径。本文给出 Kubernetes DNS解析失败的分层排查流程。
-
Kubernetes证书过期怎么处理:kubeadm续期、验证与回滚
API Server 无法访问、kubectl 报 x509 或控制面组件反复重启时,Kubernetes证书过期往往是高优先级排查项。本文按影响范围、续期、验证和回滚拆解生产处理流程。
-
Kubernetes etcd备份恢复怎么做:快照、验证与演练流程
当控制面状态损坏、误删关键资源或集群升级失败时,Kubernetes etcd备份恢复能力决定了恢复窗口和风险边界。本文按生产流程拆解快照、验证、演练、回滚和预防清单。
-
Kubernetes怎么做AI训练调度?GPU队列与多租户实践
面向建设 AI 训练平台的平台团队,本文从 GPU 资源池、任务队列、多租户配额、优先级抢占、数据访问和监控治理出发,说明 Kubernetes 如何支撑训练调度。
-
集群管理工具怎么选?多集群运维与平台能力评估
面向平台团队和运维团队,本文梳理集群管理工具的核心能力、评估维度与落地路径,帮助企业从单集群运维走向可治理的多集群平台。
-
混合云部署怎么做?企业落地路径与风险清单
面向准备建设混合云的企业团队,本文从场景识别、架构分层、迁移路径、运维治理和风险控制出发,给出一套可执行的混合云部署评估框架。
-
Kubernetes多集群升级策略:策略矩阵与演练记录模板
多集群升级不只依赖经验判断,更需要把集群差异、风险分层、演练结果和验证指标记录下来。本文以平台团队内部演练为场景,拆解Kubernetes多集群升级策略中的矩阵、流程和记录模板,帮助团队形成可复盘的升级依据。
-
GPU算力调度平台怎么选:从资源池化到AI训练推理落地
GPU资源越来越贵,AI任务却越来越碎片化。本文围绕企业AI训练、推理和研发实验场景,拆解GPU算力调度平台在资源池化、队列策略、隔离共享、成本治理和云原生集成中的关键判断,帮助平台团队把算力从固定分配变成可运营资源。
-
容器化开发怎么做:Dockerfile、本地调试、日志与CI/CD镜像版本
适合需要把应用交付到容器平台的研发工程师阅读,文章从Dockerfile、本地调试、日志规范、健康检查、资源边界到CI/CD镜像版本管理,帮助开发流程更贴近生产运行。
-
容器是什么:镜像、容器、运行时和仓库关系一次讲清楚
面向刚接触 Docker、Kubernetes 或云原生的读者,从镜像、仓库、运行时、主机内核和进程隔离几个维度理解容器,读完能判断容器与虚拟机、普通进程的差异。
-
Jenkins迁移怎么做:迁移到GitLab CI或企业DevOps平台的风险与回滚
适合准备替换或收敛Jenkins流水线的研发效能团队阅读,文章从存量盘点、迁移分层、双跑验证、权限凭证和回滚预案展开,帮助团队把Jenkins迁移做成可控工程。
-
DevOps平台建设怎么规划:流水线、制品、环境与发布治理
适合正在从分散CI/CD工具走向统一交付平台的研发效能、平台工程和架构团队阅读,文章围绕流水线、制品、环境、发布和审计治理,形成可推进的DevOps平台建设蓝图。
-
训练推理混部怎么设计:GPU调度、Gang Scheduling与优先级队列
适合正在把训练、推理和评测任务放入统一算力平台的团队阅读,文章从任务画像、资源隔离、队列策略、抢占风险和发布稳定性出发,给出训练推理混部的调度设计框架。
-
GPU资源池化怎么做:共享隔离、队列调度与成本分摊
面向训练团队、平台团队和财务治理场景,本文从资源抽象、共享隔离、队列策略、计量口径到分摊模型展开,帮助读者建立一套可落地的GPU资源池化建设框架。
-
Kubernetes平台PoC怎么做:验证场景、评分指标与风险边界
适合正在准备Kubernetes平台PoC的架构、平台和采购团队阅读,文章从场景选择、评分指标、风险控制、结果复盘到建设路线衔接,帮助PoC真正服务后续平台选型和落地决策。
-
企业容器平台怎么选:核心能力、评估维度与适用场景
适合正在评估企业容器平台的技术负责人、平台团队和架构团队阅读,文章不把选型简化为工具对比,而是从能力边界、治理深度、组织成熟度和落地风险判断平台是否真正适合当前阶段。
-
Kubernetes平台建设怎么规划:多集群、多租户与权限配额
适合正在从单集群运维走向平台化治理的团队阅读,文章从集群分层、租户模型、权限配额、资源运营和建设节奏出发,给出一套更容易落地和复盘的Kubernetes平台建设规划思路。
-
图解Kubernetes调度流程:Pod如何从Pending到Running
Pod从Pending到Running,背后经历了调度队列、节点过滤、打分、绑定、镜像拉取和容器启动等多个阶段。本文用图解方式拆解Kubernetes调度流程和常见误解。
-
金融行业Kubernetes安全治理:RBAC与审计实践
金融行业落地Kubernetes安全治理时,关注点不只是安全配置是否正确,还包括权限是否可审计、操作是否可追踪、策略是否能证明合规。本文用案例参考方式梳理治理路径。
-
kubectl命令速查:Pod、日志与事件排查清单
排查Kubernetes问题时,kubectl命令要按场景组合使用,而不是零散记忆。本文围绕Pod状态、日志、事件、资源、网络和配置检查,整理一份适合日常排障的速查清单。