云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
RuntimeClass隔离原理:gVisor与Kata边界
当多租户、沙箱执行或不可信工作负载进入集群时,RuntimeClass 常被提到。本篇用机制图和对比表解释 gVisor 与 Kata 的边界、适用场景和落地检查点。
-
NodeLocal DNSCache延迟排查:缓存与CoreDNS
DNS 已经启用 NodeLocal DNSCache,业务仍然偶发解析慢或超时?本篇按现象、命令、指标和配置拆解缓存与 CoreDNS 排查顺序,帮助快速缩小影响范围。
-
KubeVirt虚拟机调度:资源隔离与迁移
把虚拟机放进 Kubernetes 后,调度对象、资源隔离和迁移方式都会变化。本篇围绕 KubeVirt 虚拟机调度,拆解 VMI、virt-launcher、节点资源和迁移风险。
-
PDB怎么配置?驱逐与高可用边界
节点维护时 Pod 不让驱逐,或者 PDB 配了却没有保护效果,问题通常出在不可用预算理解上。本文用示例 YAML、边界表和维护验证清单解释 PDB 怎么配置,以及它不能替代哪些高可用设计。
最新发布
-
Prometheus告警降噪怎么做?路由检查方法
遇到重复通知、同源故障刷屏或无人响应时,Prometheus告警降噪要先区分规则噪声和通知链路问题。本篇按 group_by、抑制关系、静默策略和接收人路由梳理检查顺序。
-
Pod启动慢排查先看事件再看镜像
Pod长时间停在 Pending、ContainerCreating 或 ImagePullBackOff 时,最怕一上来就重启。围绕 Pod启动慢排查,本篇按事件、镜像、调度和探针四步给出可复用判断顺序。
-
Harbor镜像清理策略:保留规则与回收边界
Harbor镜像清理策略不能只看旧 Tag 数量。本篇围绕保留规则、Artifact 引用、垃圾回收和执行后验证,帮助团队先保护生产与回滚版本,再安全释放镜像仓库存储空间。
-
GPU推理副本数设置怎么做?显存判断方法
GPU推理副本数设置容易被 QPS、显存和冷启动同时影响。本篇用单副本显存、并发拐点、GPU调度边界和上线验证流程,帮助团队先定保守初始值,再通过压测和真实流量校准。
-
GitOps回滚策略-发布窗口设计清单
GitOps 让发布状态回到 Git,但事故现场常常先要判断回滚哪一层。围绕 GitOps回滚策略,本篇从发布窗口、同步策略、镜像版本和责任边界入手,梳理可执行回滚方案。
-
Kubernetes事件驱动运维闭环设计方法
集群告警越来越多时,单靠脚本触发容易误操作。围绕 Kubernetes事件驱动运维,本篇梳理事件信号、控制循环、风险分级和 Runbook 闭环,帮助你判断哪些动作适合自动化,哪些必须保留人工确认。
-
Gateway API怎么选?Ingress与Service Mesh选型策略
入口流量治理越来越难时,问题常在“谁负责网关、谁定义路由、谁治理东西向流量”。这篇选型稿用对比矩阵、迁移路径和上线清单拆解 Gateway API怎么选,让你快速判断 Ingress、Gateway API 与 Service Mesh 的适用边界。
-
云原生AI基础设施架构-5层能力清单
AI应用从试点走向生产后,平台团队往往同时面对算力排队、模型追溯、推理发布和治理审计压力。本篇用5层能力清单拆解云原生AI基础设施,帮助你快速定位架构短板和下一步建设重点。
-
运维全生命周期管理5阶段治理路径
集群、应用团队和发布频率增长后,运维问题常从单点故障变成流程失控。本篇用5阶段模型拆解运维全生命周期管理,给出阶段目标、协作边界、证据保留、实践路径和落地检查清单。
-
模型推理服务治理:路由、弹性与观测
模型上线后,真正难的是让不同版本、不同租户和不同负载稳定运行。本文从请求链路切入,拆解模型推理服务的路由、弹性、观测和风险控制,帮助平台团队建立上线后的治理视角。
-
GPU调度怎么做?队列配额落地路径
当训练任务排队、推理任务抢不到卡、团队之间争用算力时,问题通常不在单个 YAML。你可以从队列、配额、资源暴露和观测闭环四层理解 GPU调度,并形成可执行治理清单。
-
开发运维一体化实践:流水线到反馈闭环
工具齐全并不等于开发运维一体化落地成功。环境割裂、发布反馈慢和责任边界模糊时,可以从流水线证据、GitOps发布、观测关联和复盘更新四处找断点,形成可执行闭环清单。
-
容器即服务CaaS选型-5项评估清单
面对自建 Kubernetes、托管集群和企业容器平台,很多团队不知道 CaaS 该看什么。这里用概念边界、能力矩阵和场景判断,梳理容器即服务CaaS选型的关键检查项。
-
开源中间件的国产化全栈替代方案:评估框架
做中间件国产化替代时,存量依赖、能力差异、迁移风险和服务支持往往交织在一起。本篇用能力分层、评估矩阵和迁移闭环,帮助架构与平台团队判断先替什么、如何验证以及何时需要灵雀云 这类平台化承接。
-
开源容器管理平台 vs 商业容器云平台:选型区别
准备搭建企业级容器平台时,开源项目看起来灵活,商业容器云平台又强调治理和服务。本文用项目一览、能力对比和场景清单拆解差异,帮助你把技术偏好转成可讨论的选型依据。
-
中间件厂商评估清单:云原生适配与服务支持
面对多套注册中心、消息、网关和配置中心方案时,团队常难判断中间件厂商是否适合长期使用。本篇用云原生适配清单拆解产品能力、运维边界、迁移风险和服务支持,并给出 PoC 验证问题,避免选型只停留在演示功能。
-
微服务治理怎么做?注册发现与限流降级实践
当微服务数量增加后,调用关系、异常传播和外部访问边界会迅速变复杂。本篇从注册发现、限流降级、网关策略和观测告警拆解治理顺序,补充分阶段推进建议和上线前检查清单,便于平台与业务团队一起评审。
-
大模型部署到K8s怎么做?资源镜像服务上线要点
把大模型服务搬到 Kubernetes 后,最容易卡在镜像拉取慢、GPU 不可见、模型文件加载和服务暴露上。本篇按资源、镜像、模型和服务四条线梳理上线步骤与检查项。
-
K8s调度抢占怎么判断?3类约束决定调度边界
当高优先级 Pod 仍然 Pending,或抢占后分布不符合预期时,问题往往藏在亲和、拓扑约束和资源请求之间。本篇用调度链路拆解 K8s调度抢占的判断顺序与检查点。
-
K8s镜像拉取失败排查方法:事件、凭据与仓库
遇到 Pod 一直 Pending 或 ImagePullBackOff 时,先别急着重建应用。本篇按事件、Secret、镜像地址、仓库连通性和节点运行时逐层排查,帮助快速定位 K8s镜像拉取失败原因。