云原生技术

如果你正在系统了解云原生技术，可以从 Kubernetes 与容器、微服务架构、DevOps 与平台工程、云原生安全几个主方向进入。这个入口适合先建立全局认知，再按具体技术方向继续深入。

按方向查找文章

Kubernetes与容器按 Docker、K8s、网络存储、安全和平台化方向浏览容器相关内容。 微服务架构进入微服务基础、治理、部署和可观测性方向。 DevOps开发运维按 CI/CD、GitOps、发布工程和平台工程浏览内容。 容器安全关注镜像治理、运行时防护、权限控制和安全合规。 平台工程与IDP建设内部开发者平台、自服务能力和研发效能体系。 Kubernetes基础学习 K8s 架构、Pod、Service、Node 和核心组件。

阅读建议：先从 Kubernetes 与容器理解基础设施底座，再进入微服务、DevOps、平台工程和安全治理；如果你已经有明确目标，可以直接选择对应方向。

相关专题

容器专题从容器云、Docker、Kubernetes 和容器化实践进入容器技术全貌。微服务架构专题从服务拆分、治理、部署和可观测性理解微服务落地。DevOps开发运维专题连接 CI/CD、GitOps、发布工程和开发者平台。云原生安全专题进入容器安全、Kubernetes安全、DevSecOps 和零信任方向。

相关标签

AI基础设施面向 AI 平台建设的算力、存储、调度和工程化底座 算力调度聚合 GPU、异构算力和任务调度相关长尾内容 GPU调度关注 GPU 资源池化、共享、隔离与调度优化 模型推理连接大模型部署、推理服务和弹性伸缩实践 模型训练覆盖训练平台、训练任务和实验管理 AI智能体聚合 Agentic AI、工具调用、多代理协作和智能体治理

K8s容器

K8sRBAC最小权限-4类授权检查

当集群权限越用越乱，K8sRBAC最小权限问题常藏在跨命名空间绑定、默认ServiceAccount和通配符动词里。本篇用检查清单梳理核对路径，帮助你判断哪些授权需要收敛、哪些变更应先验证。

2026年6月30日
00
K8s容器

K8s优雅终止配置：preStop与SIGTERM策略

滚动更新或缩容时偶发502、连接被重置，往往不是副本数不够，而是终止阶段没有给应用和入口层留出退出窗口。本篇从preStop、SIGTERM和宽限期入手，给出可核对的配置与验证路径。

2026年6月30日
00
AI平台与MLOps

AI工作流编排怎么做？DAG与审批门设计

当AI应用从单次调用走向多步骤Agent任务时，流程失控、审批缺位和失败重跑会迅速放大风险。本篇从DAG节点拆分、人工审批位置、幂等重试、补偿回滚和平台治理清单切入，帮助读者判断哪些流程适合自动化，哪些动作必须保留人工门禁。

2026年6月23日
01
K8s容器

K8s容器运行时迁移灰度、CRI socket与回滚清单

准备调整节点运行时基线时，风险常藏在socket路径、日志采集、镜像缓存和自动化脚本里。本篇以K8s容器运行时迁移为主线，拆解灰度顺序、关键检查点、监控观察口径和可执行回滚判断，帮助平台团队降低变更影响面。

2026年6月15日
01
K8s容器

K8s容器隔离原理：Namespace、cgroup与沙箱边界

K8s容器隔离原理经常被误解为“像虚拟机一样安全”。读完本篇内容，你可以分清Namespace、cgroup、capabilities和沙箱运行时各自负责的边界，并知道在多租户场景下该如何评估风险。

2026年6月15日
01
AI算力调度

K8s中GPU共享怎么选？MIG与时间片选择框架

一张GPU卡到底该切成固定实例，还是让多个任务轮流使用？围绕K8s GPU共享，本篇从隔离、显存、性能抖动和租户体验拆解MIG与时间片的取舍，并给出上线前检查清单。

2026年6月10日
00
AI算力调度

GPU资源碎片化治理：画像、配额与调度策略

GPU利用率看似不低，任务却仍在队列里等待，往往不是单点扩容能解决的问题。本篇从GPU资源碎片化治理出发，拆解画像、配额、队列和调度策略如何协同，让剩余算力更容易被真正使用。

2026年6月10日
00
K8s容器

PVC扩容失败怎么办？检查容器存储、StorageClass与CSI

改了PVC容量却迟迟不生效时，先别急着删卷或重启业务。本篇按事件、StorageClass、CSI、PV/PVC、节点文件系统和应用视角拆解PVC扩容失败，帮助你判断请求卡在哪一段，以及下一步该低风险处理什么。

2026年6月8日
01
K8s容器

K8s调度插件原理：Filter、Score到Bind

Pod Pending不一定是CPU或内存不够，很多问题藏在调度插件的过滤、打分、预留和绑定阶段。本篇用Filter、Score到Bind的链路解释kube-scheduler如何做决策，并给出排查事件、日志和配置的对应视角。

2026年6月8日
00
K8s容器

K8s网络策略灰度上线与Pod访问控制回滚清单

准备把NetworkPolicy从测试环境推到生产时，最怕默认拒绝把正常调用、DNS解析或健康检查一起拦掉。本篇按依赖盘点、标签校验、灰度批次、观测指标和回滚条件拆解K8s网络策略上线清单，便于平台与业务团队共同验收。

2026年6月8日
00
模型训练与推理部署

vLLM Kubernetes部署怎么做？配置GPU推理服务

想把 vLLM 从单机示例放到 Kubernetes 上运行，难点通常不在启动命令，而在 GPU、模型文件、服务访问和运行状态验证。这篇文章按部署链路拆解可参考的配置思路。

2026年6月3日
00
AI平台与MLOps

LLMOps Kubernetes模型交付链路设计

大模型上线不是把容器部署到集群就结束。围绕 LLMOps和Kubernetes 的分工，本文梳理模型从注册、发布、扩缩容到观测回滚的交付链路，让平台团队看清先补哪一段能力。

2026年6月3日
00
模型训练与推理部署

KubeRay部署Ray集群的GPU调度步骤

想用 KubeRay 在 Kubernetes 上跑 Ray 集群，不能只看 RayCluster 是否创建成功。本文从 Head/Worker、GPU申请、训练任务提交和状态验证入手，梳理平台团队可落地的部署步骤。

2026年6月3日
00
模型训练与推理部署

KServe vLLM区别怎么判断？服务层对比方法

纠结 KServe 和 vLLM 怎么选时，先别急着做二选一。一个更偏模型服务层，一个更偏推理执行层；读完本文可以用层级、职责和场景矩阵判断它们在平台中的位置。

2026年6月3日
00
模型训练与推理部署

K8s模型推理扩缩容：HPA、队列、冷启动

推理服务明明开了 HPA，却还是排队、冷启动或 GPU 利用率异常？这篇内容把 CPU、队列、显存和模型加载放在同一条链路里看，给出 K8s模型推理扩缩容的判断框架和落地边界。

2026年6月3日
00
AI算力调度

K8s GPU Operator部署-3步验证节点

集群已经有 GPU 节点，却不知道 Operator 是否真正生效？这篇内容从驱动、Device Plugin、节点标签和 Pod 调度结果入手，给出可复用的 K8s GPU Operator 验证路径。

2026年6月3日
00
AI算力调度

GPU显存不足怎么排查？定位Pod与模型配置

遇到 CUDA out of memory、Pod 重启或推理请求失败时，先别急着加卡或降级模型。本文用 K8s 视角串起事件、日志、资源请求、batch size 和显存预算，帮助定位真正瓶颈。

2026年6月3日
00
AI平台与MLOps

AI平台多租户配额怎么设计？设计租户和队列边界

当多个团队共用同一批 GPU 和模型环境时，AI平台多租户配额的难点常常不是资源本身，而是租户、队列、权限和借用规则没有说清。读完可获得一套可落地的治理检查路径。

2026年6月3日
00
K8s容器

容器部署和虚拟机部署的区别-5个判断维度

容器部署和虚拟机部署的区别，不只是启动速度和资源开销。本篇用5个判断维度拆解隔离层、交付链路和治理边界，说明哪些场景可先试点容器、哪些场景应继续保持虚拟机，并形成更稳妥的部署组合。

2026年6月2日
01
K8s容器

容器部署和传统部署哪个好？选型判断框架

容器部署和传统部署哪个好，取决于应用形态、发布频率和运维成熟度。本篇用条件化结论、对比表和迁移路径，帮助你判断哪些应用适合先容器化、哪些仍可继续传统部署，并规划渐进改造顺序。

2026年6月2日
00

1 / 53
1
2
3
4
5
6
下一页

云原生技术常见问题

云原生技术主要包括哪些方向？

云原生技术通常包括容器、Kubernetes、微服务、服务治理、DevOps、可观测性、云原生安全和平台工程。它不是单一工具，而是一套围绕弹性、自动化、可扩展和持续交付构建的技术体系。

规划学习或建设路径时，可以先按“运行底座、应用架构、交付流程、稳定性治理、安全合规”五个层次拆开。这样更容易判断当前团队缺的是 Kubernetes 能力、微服务治理能力，还是 DevOps 和平台工程能力。

企业为什么要做云原生转型？

云原生转型的目标通常是提升交付效率、资源利用率、系统弹性和运维自动化水平。对于业务变化快、应用数量多、团队协作复杂的企业，云原生可以帮助基础设施和应用交付更加标准化。

转型前需要先明确目标指标，例如交付频率、环境交付时长、资源利用率、故障恢复时间和发布失败率。没有这些指标，云原生很容易变成技术替换，而不是业务和工程效率提升。

云原生和 Kubernetes 是什么关系？

Kubernetes 是云原生体系中的核心基础设施技术，但云原生不等于 Kubernetes。企业还需要补齐微服务治理、DevOps 流程、可观测性、安全合规和平台工程能力。

Kubernetes 是重要底座，但它不能替代架构治理、研发流程和安全体系。企业在建设时应避免把所有问题都归结为“上 K8s”，而是同步规划镜像、流水线、可观测性和权限治理。

云原生适合所有应用吗？

不是。无状态服务、新建应用、接口服务和弹性需求明显的应用更适合优先云原生化；强依赖本地状态、老旧架构或改造成本过高的系统，需要先做评估。

适配应用时，应区分无状态服务、有状态服务、批处理任务和遗留系统。不同类型的应用对存储、网络、扩缩容和发布策略的要求不同，不能用同一套迁移模板处理所有系统。

显示更多

云原生平台建设从哪里开始？

建议从容器平台和 CI/CD 流程开始，先解决标准运行环境和自动化交付问题，再逐步补齐可观测性、安全治理、多租户和开发者自服务。

平台建设可以从最小闭环开始：镜像构建、环境申请、应用部署、日志查看、监控告警和回滚。这个闭环稳定后，再扩展多租户、多集群、成本治理和开发者门户。

云原生安全需要提前规划吗？

需要。云原生环境的资源变化快、发布频率高，安全能力必须进入镜像、流水线、集群、运行时和访问控制环节，不能等系统上线后再补。

安全能力最好从第一天进入设计，包括镜像准入、RBAC、网络策略、Secret 管理、审计日志和运行时告警。后期再补安全，往往会遇到大量历史配置和流程改造成本。

云原生和平台工程有什么关系？

云原生提供技术底座，平台工程把这些底座能力封装成开发者可自助使用的平台服务，例如应用模板、环境申请、发布流程、日志查询和资源治理。

平台工程的价值在于把底层复杂能力转化为开发者可消费的服务。判断平台是否有效，要看业务团队是否减少等待、减少重复操作，并能在标准边界内自助完成交付。

云原生转型如何衡量效果？

可以从交付频率、变更失败率、恢复时间、资源利用率、环境交付时长、平台自服务使用率和运维成本等指标评估，而不只是看是否使用了 Kubernetes。

效果评估建议结合技术指标和体验指标：既看资源和稳定性，也看开发者等待时间、发布自助率和平台支持工单量。只有两类指标一起改善，才说明云原生建设真正进入可持续阶段。