K8s中GPU共享怎么选？MIG与时间片选择框架

本文定位：面向负责AI算力平台、K8s集群资源池和多租户GPU环境的团队，重点讨论共享方案选择口径，不替代具体设备、驱动和插件版本的实施手册。

K8s GPU共享的核心问题不是“能不能把一张卡分出去”，而是共享以后任务是否可预测、租户是否隔离、显存是否可控、调度是否还能解释。MIG、时间片和MPS都可能提升资源利用，但它们解决的问题并不相同。

K8s中GPU共享先看选择结论

如果只需要一个快速判断，可以先把负载分成三类：稳定规格的生产推理、短时弹性的开发测试、以及对显存和性能抖动敏感的训练任务。共享方案的优先级会随任务类型变化。

选择路径可以先按三步判断：

先看隔离要求：租户之间不能互相影响、需要稳定显存边界时，优先评估MIG。
再看负载形态：大量短任务、Notebook、轻量推理或低峰复用场景，可以评估时间片共享。
最后看运维能力：如果监控、配额、队列和故障定位还不成熟，不宜一次性把共享范围放到所有GPU节点。

图1：先按隔离强度、负载稳定性和显存边界选择GPU共享方案

这里容易出现一个误区：把所有共享方式都理解成“把GPU切小”。在K8s里，资源上报、Pod请求、节点标签、调度策略和运行时隔离共同决定最终效果。MIG更像把硬件能力切成可声明的实例，时间片更像让多个工作负载在同一张卡上轮流使用。

MIG、时间片和MPS分别解决什么问题

MIG、时间片和MPS的出发点不同。选型时不要只看“能让几个Pod用一张卡”，而要看是否需要硬件级隔离、是否允许性能波动、是否能接受应用侧适配成本。

方案	更适合解决的问题	主要优势	主要限制
MIG	固定规格GPU实例、租户隔离、稳定推理服务	隔离边界清晰，资源规格更可控	依赖硬件能力，实例规格不够灵活
时间片共享	开发测试、轻量推理、低负载复用	接入相对灵活，适合提升低峰利用率	性能抖动更明显，显存边界需要额外治理
MPS	多进程并发执行、细粒度GPU利用	有机会降低单任务独占造成的空闲	应用行为和运行时约束更复杂

选择标准要回到业务SLO

表格不能直接替代决策。生产推理服务如果有明确延迟目标，时间片共享带来的排队和上下文切换可能让尾延迟不稳定；而开发测试场景如果把每个Notebook都绑定整卡，资源浪费又会非常明显。

在平台层面，MIG与时间片最终都要通过 GPU调度回到资源发现、节点选择、Pod资源请求和调度结果解释。只在运行时层面打开共享能力，却没有配套调度和观测，后续问题会集中暴露在“任务为什么排不到合适GPU”和“同一节点为什么突然变慢”。

哪些场景优先选择MIG

MIG更适合对隔离、可预测性和规格稳定性要求较高的场景。比如多租户推理服务、部门级资源池、长期运行的在线任务，平台团队通常更关心每个租户获得的显存、计算单元和故障影响范围是否清楚。

优先考虑MIG的典型信号包括：

租户边界明确：不同团队或业务线不能互相抢占显存。
负载规格稳定：模型大小、batch策略和服务副本数变化不频繁。
服务质量敏感：推理延迟、失败率和重启恢复需要稳定观察。
容量规划清晰：平台能提前定义常用GPU实例规格，并接受实例粒度带来的碎片。

MIG的代价是灵活性下降。实例规格一旦固定，任务如果刚好比某个实例略大，就可能无法使用剩余资源；如果规格设计过多，平台维护复杂度也会上升。因此MIG不是“永远更稳”的答案，而是适合把稳定性和隔离放在优先级前面的场景。

图2：MIG更强调硬隔离，时间片更强调资源利用率和弹性

哪些场景适合时间片共享

时间片共享更适合弹性、短时、低负载或可接受波动的任务。它常见于开发测试、实验环境、轻量推理、教学平台和低峰资源复用。此类场景的主要矛盾不是稳定隔离，而是整卡独占导致大量空闲。

时间片共享上线前要先确认：

任务是否能接受吞吐或延迟波动。
显存是否有明确限制或告警策略。
单个任务异常是否会影响同卡其他任务。
是否能按命名空间、队列或租户限制共享比例。
监控能否区分GPU利用率、显存使用、队列等待和任务失败原因。

时间片共享尤其需要避免“看起来利用率提高，实际体验下降”。如果平台只统计GPU忙碌程度，却不观察任务等待时间、推理尾延迟和失败重试，资源复用可能掩盖了用户侧的性能抖动。

生产落地GPU共享要检查哪些治理边界

共享方案进入生产前，平台团队需要把技术开关变成可运营能力。也就是说，不能只让Pod可以申请共享GPU，还要能解释资源归属、故障影响、计量口径和回收策略。

治理边界	需要回答的问题	常见风险
显存边界	单个任务最多能使用多少显存	显存争抢导致同卡任务连带失败
性能边界	共享后延迟和吞吐如何观察	平均利用率好看，但尾延迟变差
租户边界	谁可以使用共享GPU，谁只能独占	高优先级任务被低优先级实验挤占
计量边界	共享实例如何计费或分摊成本	费用归属不清，团队不愿迁移
故障边界	单个Pod异常如何隔离和恢复	驱动、运行时或显存问题扩大影响

共享策略要与配额和队列联动

GPU共享一旦进入多租户环境，就会影响队列、公平性和资源预留。平台不应只看单节点利用率，还要把共享实例纳入算力调度的队列、配额和优先级治理中，避免某类低优先级任务长期占用可用于生产服务的资源。

图3：生产环境需要同时检查显存、性能抖动、监控和租户边界

上线前至少检查：

资源声明：Pod请求的GPU规格是否能被调度器和运行时一致理解。
节点分组：MIG节点、时间片节点和独占节点是否通过标签或池化策略区分。
监控指标：是否能看到GPU利用率、显存、任务等待、失败重试和节点异常。
灰度范围：是否先在开发测试或低风险推理场景验证，再扩大到核心业务。
回退策略：共享策略异常时，是否能快速回到独占卡或固定实例模式。

小结

K8s GPU共享的选择不是MIG与时间片二选一，而是把隔离强度、负载稳定性、显存边界和平台治理能力排出优先级。MIG适合规格稳定、隔离要求高的生产场景；时间片适合弹性、短时、可接受波动的复用场景；MPS则需要结合应用并发模型谨慎评估。

更稳妥的落地方式是分层推进：先划分独占、MIG和时间片资源池，再用配额、队列、监控和故障回退保护生产任务。只有共享能力能被调度、观测和运营解释，GPU利用率提升才不会变成新的稳定性风险。

FAQ

K8s GPU共享一定要优先选MIG吗？

不一定。MIG适合隔离和可预测性优先的场景，例如多租户生产推理或固定规格服务。如果任务是开发测试、短时实验或可接受波动的轻量推理，时间片共享可能更灵活。选择时应先看业务SLO、显存边界和租户影响范围，而不是只看共享数量。

时间片GPU共享会不会影响推理延迟？

有可能。时间片让多个任务轮流使用同一张GPU，吞吐、排队和上下文切换都会影响体验。对于延迟敏感服务，建议先在低风险流量中观察尾延迟、失败率和重试次数，再决定是否扩大共享范围。

MIG和时间片可以在同一个K8s集群里同时使用吗？

可以按资源池或节点池区分，但不建议混在没有治理边界的同一类节点里。平台应通过节点标签、资源类、配额和调度策略说明哪些任务使用MIG，哪些任务使用时间片，避免用户申请资源时无法理解实际隔离效果。

K8s GPU共享上线前最容易漏掉什么？

最容易漏掉的是显存和故障边界。很多团队只关注GPU利用率，却没有把显存上限、异常任务隔离、节点驱动问题和租户级告警纳入检查。上线前应同时验证监控、限额、回退和用户说明文档。

原创声明：本文为 CNBPA 云原生社区原创技术内容，非商业转载须注明出处：https://www.cloudnative-tech.com/p/9718/。文中原创图示、架构图和文章内容未经许可不得用于商业转载、培训课件、营销材料或二次分发。

K8s中GPU共享怎么选？MIG与时间片选择框架

K8s中GPU共享先看选择结论

MIG、时间片和MPS分别解决什么问题

选择标准要回到业务SLO

哪些场景优先选择MIG

哪些场景适合时间片共享

生产落地GPU共享要检查哪些治理边界

共享策略要与配额和队列联动

小结

FAQ

K8s GPU共享一定要优先选MIG吗？

时间片GPU共享会不会影响推理延迟？

MIG和时间片可以在同一个K8s集群里同时使用吗？

K8s GPU共享上线前最容易漏掉什么？

相关推荐

模型上线为什么会失败？环境、依赖与资源问题

推理服务弹性伸缩怎么设计？冷启动与热池机制

K8s GPU Operator部署-3步验证节点

分布式训练详解：多机多卡与通信机制

Kubernetes怎么做AI训练调度？GPU队列与多租户实践