K8s GPU 调度踩坑:MIG、时间片共享与亲和性
集群 GPU 利用率从 35% 提到 68% 的配置笔记:
- 推理小模型用 MIG 切分
- 训练任务独占节点 + taint
- GPU Operator 统一驱动版本
别忽视 NCCL 版本和驱动不匹配导致的静默降速。
回复 (2)
MIG 配置错了反而更慢,要先 profiling 再切分。
驱动版本统一太重要了,踩过 NCCL hang 的坑。
登录 后参与讨论
登录 后参与讨论