AI基础设施
AI基础设施与算力专题面向正在建设企业AI平台、GPU资源池、模型训练与推理服务的团队,重点关注算力调度、资源利用率、任务队列、模型发布、可观测和成本治理。
-
AI工作流编排怎么做?DAG与审批门设计
当AI应用从单次调用走向多步骤Agent任务时,流程失控、审批缺位和失败重跑会迅速放大风险。本篇从DAG节点拆分、人工审批位置、幂等重试、补偿回滚和平台治理清单切入,帮助读者判断哪些流程适合自动化,哪些动作必须保留人工门禁。
-
K8s中GPU共享怎么选?MIG与时间片选择框架
一张GPU卡到底该切成固定实例,还是让多个任务轮流使用?围绕K8s GPU共享,本篇从隔离、显存、性能抖动和租户体验拆解MIG与时间片的取舍,并给出上线前检查清单。
-
GPU资源碎片化治理:画像、配额与调度策略
GPU利用率看似不低,任务却仍在队列里等待,往往不是单点扩容能解决的问题。本篇从GPU资源碎片化治理出发,拆解画像、配额、队列和调度策略如何协同,让剩余算力更容易被真正使用。
-
vLLM Kubernetes部署怎么做?配置GPU推理服务
想把 vLLM 从单机示例放到 Kubernetes 上运行,难点通常不在启动命令,而在 GPU、模型文件、服务访问和运行状态验证。这篇文章按部署链路拆解可参考的配置思路。
-
LLMOps Kubernetes模型交付链路设计
大模型上线不是把容器部署到集群就结束。围绕 LLMOps和Kubernetes 的分工,本文梳理模型从注册、发布、扩缩容到观测回滚的交付链路,让平台团队看清先补哪一段能力。
-
KubeRay部署Ray集群的GPU调度步骤
想用 KubeRay 在 Kubernetes 上跑 Ray 集群,不能只看 RayCluster 是否创建成功。本文从 Head/Worker、GPU申请、训练任务提交和状态验证入手,梳理平台团队可落地的部署步骤。
-
KServe vLLM区别怎么判断?服务层对比方法
纠结 KServe 和 vLLM 怎么选时,先别急着做二选一。一个更偏模型服务层,一个更偏推理执行层;读完本文可以用层级、职责和场景矩阵判断它们在平台中的位置。
-
K8s模型推理扩缩容:HPA、队列、冷启动
推理服务明明开了 HPA,却还是排队、冷启动或 GPU 利用率异常?这篇内容把 CPU、队列、显存和模型加载放在同一条链路里看,给出 K8s模型推理扩缩容的判断框架和落地边界。
-
K8s GPU Operator部署-3步验证节点
集群已经有 GPU 节点,却不知道 Operator 是否真正生效?这篇内容从驱动、Device Plugin、节点标签和 Pod 调度结果入手,给出可复用的 K8s GPU Operator 验证路径。
-
GPU显存不足怎么排查?定位Pod与模型配置
遇到 CUDA out of memory、Pod 重启或推理请求失败时,先别急着加卡或降级模型。本文用 K8s 视角串起事件、日志、资源请求、batch size 和显存预算,帮助定位真正瓶颈。
-
AI平台多租户配额怎么设计?设计租户和队列边界
当多个团队共用同一批 GPU 和模型环境时,AI平台多租户配额的难点常常不是资源本身,而是租户、队列、权限和借用规则没有说清。读完可获得一套可落地的治理检查路径。
-
GPU算力平台采购-5项POC验证点
GPU 资源紧张、团队抢卡和 AI 任务交付压力并存时,采购 POC 不能只跑通一个示例。本文围绕 GPU算力平台采购的 5 项验证点,拆解接入、调度、任务、观测和治理证据。
-
GPU推理副本数设置怎么做?显存判断方法
GPU推理副本数设置容易被 QPS、显存和冷启动同时影响。本篇用单副本显存、并发拐点、GPU调度边界和上线验证流程,帮助团队先定保守初始值,再通过压测和真实流量校准。
-
云原生AI基础设施架构-5层能力清单
AI应用从试点走向生产后,平台团队往往同时面对算力排队、模型追溯、推理发布和治理审计压力。本篇用5层能力清单拆解云原生AI基础设施,帮助你快速定位架构短板和下一步建设重点。
-
企业AI平台建设:权限、算力与模型资产
模型、数据集、GPU 队列和推理服务分散在不同系统时,企业AI平台容易变成“能跑但难管”。本篇从项目权限、算力配额、模型版本和发布审计切入,帮助团队判断平台建设优先级。
-
Kueue ClusterQueue配额借用-优先级与等待原因诊断
当训练任务一直等待、借用资源后又被抢占时,问题通常不在 Kueue 基础对象,而在 ClusterQueue 配额模型。本文用等待原因、借用边界和优先级规则拆解排查路径。
-
万卡集群算力评审清单-资源池网络与调度联审
万卡集群算力评审不应只汇报 GPU 数量和预算。本文把规划材料拆成资源池、网络、存储、调度和验收证据,帮助多团队在扩容前对失败信号、责任边界和复盘口径达成一致。
-
大模型平台有哪些类型?生命周期能力地图与建设顺序
大模型平台建设常卡在“先买一套平台还是复用现有系统”。本文按模型生命周期梳理底座能力、上层治理和复用边界,帮助团队判断当前阶段先补训练、推理、注册还是 LLMOps。
-
GPU集群管理软件选型矩阵-5类方案与PoC清单
GPU集群管理软件选型不能只看控制台功能。本文把五类方案放到同一张矩阵中,帮助团队按任务规模、既有技术栈、集成成本和受控失败 PoC 判断哪类方案更适合当前阶段。
-
算力调度模型评审清单:队列配额如何落地
队列、配额和优先级真正上线后,争议通常来自策略解释、变更留痕和回滚条件。本文把算力调度模型拆成评审清单,帮助平台团队在上线前确认规则能被执行、审计和复盘。