云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
KEDA事件驱动扩缩容-队列积压与冷启动验证
队列长度上涨时,副本数没有跟上;副本扩起来后,任务仍然堆积。本文从事件源、ScaledObject、HPA 时间线和冷启动成本切入,梳理 KEDA 事件驱动扩缩容的验证方法。
-
Istio mTLS排障-STRICT切换与证书链路检查
STRICT 一开就 503,问题可能是未注入调用方、客户端 TLS 模式、SDS 证书或端口命名。本文围绕 Istio mTLS 排障,把策略、证书和路由层分开验证。
-
External Secrets Operator密钥同步治理实践
密钥同步成功,只代表 Secret 被写入集群;更关键的是谁能同步、同步哪些路径、应用是否重载、失败是否告警。本文用权限边界和轮换链路拆解 ESO 落地治理。
-
Cilium网络策略排障-身份标签与丢包路径诊断
同一条访问有时通、有时被拒,往往不是单个 NetworkPolicy 能解释。本文围绕 Cilium 网络策略排障,把身份标签、策略选择器、Hubble verdict 和节点路径拆成分支。
最新发布
-
异步链路追踪怎么做?消息队列断链排查
同步接口能看到 Trace,消息队列一异步就断链,是很多微服务排障的常见盲区。本篇从生产端、队列属性、消费者、重试和日志关联切入,梳理异步链路追踪的排查方法,帮助团队快速定位断点。
-
链路追踪采样怎么设?尾采样与成本边界
Trace 采得太少看不到慢请求,采得太多又拖垮后端。本篇从采样位置、保留优先级、尾采样等待窗口和 Collector 容量切入,帮助你设计更稳妥的链路追踪采样策略。
-
Prometheus告警误报排查-4个配置盲点
告警一响就被判定为误报,可能掩盖真实故障。本篇先教你回放触发时段,再按表达式、持续时间、标签聚合和抑制静默核对 Prometheus 告警误报,帮助值班团队保留真正有行动价值的通知。
-
可观测性平台怎么建?三类信号分层
告警很多、日志很散、链路追踪成本失控时,问题往往出在信号没有分层。本篇用指标发现、日志解释、链路定位的视角,帮助你判断可观测性平台先建哪一层、哪些数据该保留、哪些责任要明确。
-
多集群权限管理怎么做?RBAC审计清单
集群数量增加后,权限风险往往来自临时授权、跨集群角色不一致和 ServiceAccount 复用。本篇从身份源、角色模板、集群绑定和例外流程入手,帮助你把多集群权限管理变成可复查清单。
-
大模型训练流程怎么走?从数据到发布步骤
从数据集、GPU 资源到模型发布,大模型训练容易卡在版本、权限、评测和产物管理上。本篇按阶段拆解大模型训练流程,帮助你判断哪些步骤适合先平台化,哪些边界需要保留人工确认。
-
Kubernetes Runbook自动化闭环怎么做?从告警到复盘
告警来了靠人翻群、脚本散落在各处、复盘结论无法复用,是 Runbook 自动化最常见的断点。本篇从告警入口、诊断证据、处置分级和升级策略切入,拆解 Kubernetes 场景下的闭环落地顺序。
-
混合云成本治理怎么做?配额与账单核对
账单上涨时,问题通常不是“哪朵云更贵”,而是工作负载、团队、集群和项目之间缺少统一归属。本篇把配额、标签、用量和责任人串起来,帮助你判断混合云成本治理该从哪里落手。
-
GPU管理平台有哪些?灵雀云算力治理
GPU 资源越来越贵,真正难题往往不是“有没有平台”,而是谁能把卡型、队列、配额、租户和训练推理任务管起来。本篇聚焦灵雀云算力治理视角,帮助你评估 GPU管理平台该补哪些企业级能力。
-
GitOps漂移检测怎么做?同步与回滚边界
生产环境出现 OutOfSync 时,真正难点不是把状态重新同步,而是判断差异来自紧急修复、控制器补字段还是错误提交。读完本文可获得一套 GitOps漂移检测与回滚边界清单。
-
GitOps控制环原理:同步与漂移修复
GitOps 不只是把 YAML 放进仓库,真正起作用的是控制环持续比较、同步和校验状态。本篇从期望状态、实际状态、健康检查和漂移修复拆解 GitOps控制环原理。
-
eBPF可观测性原理:内核事件边界
当指标、日志和链路追踪看不到内核层行为时,eBPF 能补充运行时视角。本篇从探针、maps、用户态 agent 和 Kubernetes 语义映射切入,说明哪些事件值得采集,哪些边界不能被忽略。
-
云管理平台账号权限治理怎么做?成本核对清单
云资源费用对不上、权限没人敢收、项目归属混乱时,问题往往不在平台类型,而在账号和成本缺少同一套治理口径。本文从身份源、服务账号、资源归属和账单异常出发,给出一套可落地的核对顺序。
-
AI智能体搭建教程:工具链与上线步骤
第一次搭 AI 智能体时,最容易卡在“先选框架还是先接业务系统”。这篇教程用路线图方式拆开最小原型、工具链取舍、示例工作流和部署门禁,帮助你从可跑 Demo 走向可交付版本。
-
Agent大语言模型是什么?架构与边界
当团队讨论 Agent、大模型和智能体平台时,最容易混淆的是“模型能力”和“任务执行系统”。本文用架构拆解 Agent大语言模型的组成、工作流和限制,帮助你判断哪些场景适合做 Agent,哪些只需要普通 LLM 应用。
-
Agent智能体搭建步骤:从规划到验证
当 Agent 原型准备进入项目评审时,团队需要的不再是工具链总览,而是每一步谁签字、看什么证据、哪些权限不能越过。本文提供 Agent智能体搭建步骤清单,适合启动会、评审会和上线前验收使用。
-
Velero恢复演练-Kubernetes备份可用性验证
备份任务 Completed 不等于业务可恢复。本文围绕 Velero 恢复演练,把误删恢复、应用级恢复和跨集群恢复拆成不同验收目标,帮助团队发现备份盲区。
-
OpenTelemetry Collector管道部署-采样路由与故障降级
可观测数据进后端之前,最容易出问题的是采样口径、字段脱敏和导出失败。本文围绕 OpenTelemetry Collector 管道部署,拆解如何设计可降级的 Telemetry Pipeline。
-
Kyverno vs OPA Gatekeeper-策略引擎怎么选
同样能做准入控制,Kyverno 和 OPA Gatekeeper 的分歧在于谁来写策略、规则是否跨系统复用、例外如何审批。本文用团队协作视角比较两类策略引擎。
-
Kueue ClusterQueue配额借用-优先级与等待原因诊断
当训练任务一直等待、借用资源后又被抢占时,问题通常不在 Kueue 基础对象,而在 ClusterQueue 配额模型。本文用等待原因、借用边界和优先级规则拆解排查路径。