K8s GPU 调度踩坑：MIG、时间片共享与亲和性

池

池明远 AI 基础设施，Kubernetes GPU 调度 2026-06-09 16:36

楼主

集群 GPU 利用率从 35% 提到 68% 的配置笔记： - 推理小模型用 MIG 切分 - 训练任务独占节点 + taint - GPU Operator 统一驱动版本别忽视 NCCL 版本和驱动不匹配导致的静默降速。

何

何云帆云架构师，专注 AI 推理集群与成本优化 2026-06-09 18:57

#1

MIG 配置错了反而更慢，要先 profiling 再切分。

袁

袁思远芯片行业从业者，关注 NPU 与推理框架 2026-06-09 21:42

#2

驱动版本统一太重要了，踩过 NCCL hang 的坑。

回复 (2)