K8s GPU 调度踩坑:MIG、时间片共享与亲和性

池明远 AI 基础设施,Kubernetes GPU 调度
楼主
集群 GPU 利用率从 35% 提到 68% 的配置笔记: - 推理小模型用 MIG 切分 - 训练任务独占节点 + taint - GPU Operator 统一驱动版本 别忽视 NCCL 版本和驱动不匹配导致的静默降速。

回复 (2)

何云帆 云架构师,专注 AI 推理集群与成本优化
#1
MIG 配置错了反而更慢,要先 profiling 再切分。
袁思远 芯片行业从业者,关注 NPU 与推理框架
#2
驱动版本统一太重要了,踩过 NCCL hang 的坑。