云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
云原生培训怎么学:从Kubernetes基础到生产实践路线
做云原生培训时,真正难点不是课程清单,而是如何把Kubernetes基础、实操练习、排障能力和生产规范串成路线。本文从学习阶段、实验环境、团队协作和评估标准拆解培训设计方法。
-
Kubernetes CNI插件怎么选?Calico、Cilium与Flannel对比
CNI 插件不是 Kubernetes 集群搭建时的附属选项,而是影响 Pod 通信、网络策略、可观测性、性能和安全边界的基础能力。
-
GitOps回滚与变更审计怎么做?多环境发布治理实践
GitOps 的价值不只是自动同步配置,更在于当生产变更出问题时,团队能快速判断谁改了什么、环境是否漂移、应该回滚到哪个可信状态。
-
服务网格流量治理怎么做?灰度、熔断与可观测实践
服务网格真正发挥价值,往往不是因为引入了 Sidecar,而是团队能否把路由、灰度、熔断、安全和观测能力放进统一治理闭环。
最新发布
-
向量检索服务怎么部署?索引、存储与可观测性
向量检索服务上线后,问题往往出在索引更新、召回延迟、存储增长和权限边界上。把索引、数据、服务和观测一起设计,才能支撑稳定的 RAG 与语义检索应用。
-
模型注册中心怎么建设?元数据、权限与生命周期
模型文件越来越多时,团队最先遇到的问题不是存储空间,而是谁能使用、哪个版本可信、能否发布、出了问题能否追溯。模型注册中心把这些信息组织成可管理的生命周期。
-
模型评测流水线怎么搭建?离线指标与线上反馈
模型能不能上线,不能只看一次离线分数。评测流水线需要把样本、指标、版本、业务反馈和发布决策连接起来,让每次模型变化都有可比较、可追溯的依据。
-
LLMOps平台要具备哪些能力?提示词、评测与发布治理
大模型应用上线后,变化的不只是模型文件,提示词、工具调用、知识库、评测集和路由策略都会影响结果。LLMOps 平台要把这些变化纳入可测试、可发布、可回滚的流程。
-
GPU资源池怎么规划?节点分层、配额与隔离策略
GPU 资源池不是把所有显卡放进同一个集群就结束。不同型号、显存、网络、任务类型和业务等级会产生不同约束,规划不好会导致高端卡浪费、低优先级任务挤占核心服务。
-
GPU集群观测看什么?利用率、显存与容量风险
GPU 利用率高不一定代表资源健康,显存接近上限、排队时间变长、节点故障或资源碎片都会影响 AI 任务交付。GPU 集群观测要把资源、任务和容量风险放在一起看。
-
AI工作负载调度怎么做?训练、推理与优先级队列
AI 平台里既有长时间训练,也有低延迟推理,还有临时实验和批量生成任务。它们对 GPU、显存、网络、等待时间和稳定性的要求不同,调度策略必须分层设计。
-
AI平台多租户怎么做?资源隔离、权限与成本归因
当多个团队共用同一套 AI 平台时,最容易出现资源争抢、权限过宽、成本不清和故障影响扩散。多租户治理要让共享资源既能复用,又不会失去边界。
-
AI推理网关怎么设计?路由、鉴权与配额治理
当模型数量和调用方增加后,直接暴露推理服务会让鉴权、路由、限流和观测分散在各处。AI 推理网关把调用入口统一起来,让多模型服务具备更清晰的治理边界。
-
AI数据管道怎么设计?特征、样本与训练推理一致性
很多模型问题不是算法本身造成,而是训练和推理看到的数据不一致。AI 数据管道要把样本、特征、质量校验和血缘关系串起来,让模型效果有稳定数据基础。
-
PVC Pending排查-StorageClass绑定事件分析
PVC 一直 Pending 时,问题未必出在应用 Pod,而可能卡在存储类、PV 匹配、拓扑约束或 CSI 动态供给链路。本文给出一套从事件到 StorageClass 的排查路径。
-
Kubernetes准入控制-Admission Webhook策略治理
准入控制不是简单拒绝不合规 YAML,而是在资源进入集群前建立统一策略边界。本文拆解 Admission Webhook 策略治理的设计、上线和审计方法。
-
Argo CD权限治理-项目隔离与同步权限设计
Argo CD 真正进入多团队使用后,风险往往不在能不能同步应用,而在谁能同步到哪个集群、能改哪些项目、漂移后谁负责处理。本文给出权限治理设计路径。
-
软件供应链安全是什么?SBOM、签名校验与制品可信机制
从代码提交到镜像上线,风险可能出现在依赖引入、构建环境、制品仓库和部署准入的任一环节。本文用流程、清单和治理路线拆解软件供应链安全,帮助团队把“相信制品”转成“验证制品”。
-
服务降级怎么做?熔断、限流与降级策略设计
当依赖超时、流量突增或局部故障出现时,系统要先保住核心业务而不是追求所有功能完整可用。本文从原则、策略、检查点和例外情况拆解服务降级设计,帮助团队建立可执行的稳定性预案。
-
OpenTelemetry链路追踪怎么做?微服务排障接入实践
当一次请求跨越网关、服务、消息队列和数据库时,只看日志很难还原完整路径。本文用实践口径拆解 OpenTelemetry链路追踪的接入顺序、关键配置和排障方法,帮助团队建立可复制的追踪落地流程。
-
Kubernetes Secret管理怎么做?敏感信息保护与泄露防范
当凭据进入代码、镜像、流水线和集群后,泄露风险会沿交付链路扩散。本篇围绕 Secret管理给出配置边界、权限收敛、轮换和应急响应方法。
-
Kubernetes审计日志怎么配置:API访问追踪与安全告警实践
从“记录哪些请求”到“如何发现异常访问”,本文给出 Kubernetes审计日志的配置路径、策略分层、字段解读和告警落地方法,适合用于集群安全基线建设。
-
分布式事务怎么处理?微服务场景下的方案取舍
订单、库存、支付等链路拆成微服务后,事务边界会从数据库内部扩展到服务调用之间。本文用场景和决策维度拆解分布式事务处理方法,帮助判断什么时候要强一致,什么时候应接受最终一致。
-
研发效能怎么衡量?交付效率、变更失败率与恢复时间指标
研发效能难衡量,往往不是缺少数据,而是把提交次数、需求数量等局部指标当成目标。本文从交付效率、变更质量和恢复能力出发,给出更适合平台工程团队的指标设计方式。