云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
入口网关性能测试:Ingress-Nginx与Traefik怎么评估
入口网关选型不能只看功能清单,延迟、吞吐、CPU、内存、配置复杂度和观测能力都会影响生产表现。本文用可复现的测试口径说明Ingress-Nginx与Traefik应该怎么评估。
-
Prometheus架构详解:指标采集与告警数据流
Prometheus不是单纯的指标数据库,而是一套围绕拉取采集、时序存储、查询规则和告警通知构建的监控闭环。本文从整体架构、组件职责和指标到告警的数据流讲清它的工作方式。
-
CrashLoopBackOff排查:Pod反复重启的6步定位
CrashLoopBackOff不是一个单一错误,而是Pod中的容器不断启动失败后的状态结果。本文用6步排查法串起事件、日志、退出码、OOM、探针和依赖检查,帮助快速定位Pod反复重启原因。
-
Kubernetes审计日志配置实战:策略、采集与告警
Kubernetes审计日志用于回答谁在什么时候对集群做了什么操作。本文从audit policy设计开始,讲清API Server配置、日志采集、验证方法和安全告警接入,帮助团队建立可追踪的集群审计能力。
最新发布
-
GPU算力调度平台怎么选:从资源池化到AI训练推理落地
GPU资源越来越贵,AI任务却越来越碎片化。本文围绕企业AI训练、推理和研发实验场景,拆解GPU算力调度平台在资源池化、队列策略、隔离共享、成本治理和云原生集成中的关键判断,帮助平台团队把算力从固定分配变成可运营资源。
-
容器化开发怎么做:Dockerfile、本地调试、日志与CI/CD镜像版本
适合需要把应用交付到容器平台的研发工程师阅读,文章从Dockerfile、本地调试、日志规范、健康检查、资源边界到CI/CD镜像版本管理,帮助开发流程更贴近生产运行。
-
容器是什么:镜像、容器、运行时和仓库关系一次讲清楚
面向刚接触 Docker、Kubernetes 或云原生的读者,从镜像、仓库、运行时、主机内核和进程隔离几个维度理解容器,读完能判断容器与虚拟机、普通进程的差异。
-
Jenkins迁移怎么做:迁移到GitLab CI或企业DevOps平台的风险与回滚
适合准备替换或收敛Jenkins流水线的研发效能团队阅读,文章从存量盘点、迁移分层、双跑验证、权限凭证和回滚预案展开,帮助团队把Jenkins迁移做成可控工程。
-
DevOps平台建设怎么规划:流水线、制品、环境与发布治理
适合正在从分散CI/CD工具走向统一交付平台的研发效能、平台工程和架构团队阅读,文章围绕流水线、制品、环境、发布和审计治理,形成可推进的DevOps平台建设蓝图。
-
训练推理混部怎么设计:GPU调度、Gang Scheduling与优先级队列
适合正在把训练、推理和评测任务放入统一算力平台的团队阅读,文章从任务画像、资源隔离、队列策略、抢占风险和发布稳定性出发,给出训练推理混部的调度设计框架。
-
GPU资源池化怎么做:共享隔离、队列调度与成本分摊
面向训练团队、平台团队和财务治理场景,本文从资源抽象、共享隔离、队列策略、计量口径到分摊模型展开,帮助读者建立一套可落地的GPU资源池化建设框架。
-
Kubernetes平台PoC怎么做:验证场景、评分指标与风险边界
适合正在准备Kubernetes平台PoC的架构、平台和采购团队阅读,文章从场景选择、评分指标、风险控制、结果复盘到建设路线衔接,帮助PoC真正服务后续平台选型和落地决策。
-
企业容器平台怎么选:核心能力、评估维度与适用场景
适合正在评估企业容器平台的技术负责人、平台团队和架构团队阅读,文章不把选型简化为工具对比,而是从能力边界、治理深度、组织成熟度和落地风险判断平台是否真正适合当前阶段。
-
Kubernetes平台建设怎么规划:多集群、多租户与权限配额
适合正在从单集群运维走向平台化治理的团队阅读,文章从集群分层、租户模型、权限配额、资源运营和建设节奏出发,给出一套更容易落地和复盘的Kubernetes平台建设规划思路。
-
图解Kubernetes调度流程:Pod如何从Pending到Running
Pod从Pending到Running,背后经历了调度队列、节点过滤、打分、绑定、镜像拉取和容器启动等多个阶段。本文用图解方式拆解Kubernetes调度流程和常见误解。
-
金融行业Kubernetes安全治理:RBAC与审计实践
金融行业落地Kubernetes安全治理时,关注点不只是安全配置是否正确,还包括权限是否可审计、操作是否可追踪、策略是否能证明合规。本文用案例参考方式梳理治理路径。
-
kubectl命令速查:Pod、日志与事件排查清单
排查Kubernetes问题时,kubectl命令要按场景组合使用,而不是零散记忆。本文围绕Pod状态、日志、事件、资源、网络和配置检查,整理一份适合日常排障的速查清单。
-
GPU推理成本优化复盘:从独占部署到弹性调度
当GPU推理服务长期独占资源、低峰空闲明显时,成本优化不能只靠降配。本文复盘从资源画像、请求峰谷、显存复用、弹性伸缩到成本归因的治理过程,帮助团队找到可持续优化路径。
-
云原生安全学习路径:从镜像安全到运行时防护
想系统学习云原生安全,可以从镜像安全和基础隔离入手,再进入Kubernetes权限、准入控制、网络策略、审计日志和运行时防护。本文给出适合平台与安全团队的阶段化学习路径。
-
Kubernetes 1.32更新解读:平台团队升级前关注点
Kubernetes版本更新不能只看新增功能,平台团队更需要判断哪些变化会影响控制面、插件、API兼容性和生产升级窗口。本文从升级前检查角度解读Kubernetes 1.32的关注点。
-
K8s入口对比矩阵:Ingress、Gateway API与Service Mesh
K8s入口流量治理不是只有Ingress一种选择。Gateway API提供更强的多角色和扩展模型,Service Mesh则更偏服务治理。本文用矩阵方式比较三类入口方案的能力边界和适用场景。
-
Docker Compose迁移Kubernetes:配置拆分与回滚指南
从Docker Compose迁移到Kubernetes不是把YAML格式转换一下,而是把单机编排模型迁移到声明式集群模型。本文围绕配置拆分、服务暴露、存储和回滚策略给出迁移指南。
-
什么是Sidecar容器?和Init容器有什么区别
Sidecar容器常用于日志采集、代理、配置同步和服务网格,但它不是普通业务容器,也不同于只在启动前执行的Init容器。本文用定义、例子、类比和对比表讲清它的作用边界。
-
Kubernetes RBAC最佳实践:最小权限配置清单
RBAC最小权限的难点不在YAML语法,而在角色边界、绑定范围和长期审计。本文从原则、配置模板、风险项和检查清单出发,梳理生产环境Kubernetes权限治理方法。