版本:v2.8.0
启用天数智芯 GPU 共享
简介
本组件支持复用天数智芯 GPU 设备 (MR-V100、BI-V150、BI-V100),并为此提供以下几种与 vGPU 类似的复用功能,包括:
GPU 共享: 每个任务可以只占用一部分显卡,多个任务可以共享一张显卡
可限制分配的显存大小: 你现在可以用显存值(例如 3000M)来分配 GPU,本组件会确保任务使用的显存不会超过分配数值
可限制分配的算力核组比例: 你现在可以用算力比例(例如 60%)来分配 GPU,本组件会确保任务使用的显存不会超过分配数值
设备 UUID 选择: 你可以通过注解指定使用或排除特定的 GPU 设备
部署说明: 部署本组件后,只需要部署厂家提供的 gpu-manager 即可使用
节点需求
- Iluvatar gpu-manager (please consult your device provider)
- driver version > 3.1.0
开启 GPU 复用
- 部署'gpu-manager',天数智芯的 GPU 共享需要配合厂家提供的'gpu-manager'一起使用,联系设备提供方获取
注意: 只需要安装 gpu-manager,不要安装 gpu-admission.
- 在安装 HAMi 时配置设置 devices.iluvatar.enabled=true
helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag={your kubernetes version} --set devices.iluvatar.enabled=true
- 部署'gpu-manager'之后,会根据 GPU 设备型号上报资源名称
说明: 目前默认支持的 GPU 型号和资源名称在 device-configmap.yaml 定义:
iluvatars:
- chipName: MR-V100
commonWord: MR-V100
resourceCountName: iluvatar.ai/MR-V100-vgpu
resourceMemoryName: iluvatar.ai/MR-V100.vMem
resourceCoreName: iluvatar.ai/MR-V100.vCore
- chipName: MR-V50
commonWord: MR-V50
resourceCountName: iluvatar.ai/MR-V50-vgpu
resourceMemoryName: iluvatar.ai/MR-V50.vMem
resourceCoreName: iluvatar.ai/MR-V50.vCore
- chipName: BI-V150
commonWord: BI-V150
resourceCountName: iluvatar.ai/BI-V150-vgpu
resourceMemoryName: iluvatar.ai/BI-V150.vMem
resourceCoreName: iluvatar.ai/BI-V150.vCore
- chipName: BI-V100
commonWord: BI-V100
resourceCountName: iluvatar.ai/BI-V100-vgpu
resourceMemoryName: iluvatar.ai/BI-V100.vMem
resourceCoreName: iluvatar.ai/BI-V100.vCore