NVIDIA Virtual GPU 在 Hyper-V 平台上的完整使用流程

深入了解从 host 驱动下载到虚拟机内驱动配置的每个细节

在当今的虚拟化环境中，许多企业寻求利用 NVIDIA 的 Virtual GPU (vGPU) 技术以实现高性能图形加速。尤其在 Hyper-V 环境下，通过正确配置物理主机与虚拟机，用户可以在数据中心或云平台中部署出色的图形加速解决方案。本文将详细介绍如何在 Hyper-V 平台上使用 NVIDIA vGPU，包括从 host 驱动的下载、安装，到 Hyper-V 环境下的 GPU 分区配置，以及最后在虚拟机内配置和测试 NVIDIA 驱动的全部步骤。

关键要点

Host 驱动下载与安装：必须从 NVIDIA 官方许可门户下载适合的驱动，并确保主机固件和操作系统满足要求。
Hyper-V 和 GPU 配置：通过 PowerShell 命令启用 GPU 分区适配器或使用 Direct Device Assignment (DDA) 完成 GPU 映射操作。
虚拟机内驱动配置与测试：安装 NVIDIA vGPU 客户端驱动来确保虚拟机正确识别 GPU，并利用工具进行验证和调优。

概述

部署 NVIDIA Virtual GPU (vGPU) 在 Hyper-V 上的解决方案涉及多个步骤，每个环节都必须严格按照官方要求进行配置。首先，确保主机硬件具备适当的 NVIDIA GPU（支持 vGPU 功能的型号，如 NVIDIA A 系列、Tesla 系列或专用 GRID 卡），并确保 CPU 支持例如 IOMMU、VT-d 或 AMD-Vi 功能。紧接着，下载并安装适用于主机操作系统（如 Windows Server 2022 或 Azure Stack HCI 22H2）的 NVIDIA vGPU host 驱动。安装成功后，通过配置 Hyper-V 环境 – 包括启用 Hyper-V 角色、建立虚拟交换机、配置 GPU 分区或使用特定的 Direct Device Assignment —— 为虚拟机分配 GPU 资源。最后，在虚拟机内部安装针对客户端操作系统的 NVIDIA vGPU 驱动，确保系统能够正确加载 GPU 组件。

详细步骤说明

1. 准备与系统要求

在开始之前，必须验证以下几项要求是否全部满足：

1.1 硬件要求

确定使用支持 NVIDIA vGPU 的显卡，例如 NVIDIA A40、A16、A10、A2 或 Tesla 系列。
主板及 CPU 应支持 IOMMU（VT-d / AMD-Vi），以便实现设备直通和 GPU 分区。
确保 GPU 的 BIOS 已开启相应的虚拟化支持，有些情况下可能需要在固件中调整设置。

1.2 软件与系统要求

主机操作系统需要是支持 GPU 虚拟化的 Windows Server 版本，如 Windows Server 2022、Azure Stack HCI 22H2 或更高版本。
启用 Hyper-V 角色，确保 Windows Admin Center 和 PowerShell 均可正常使用。
虚拟机内的操作系统建议与主机保持兼容性，例如 Windows 10/11 专业版，或 Windows Server 根据具体需求。

2. Host 驱动的下载与安装

主机驱动安装是确保 NVIDIA GPU 在 Hyper-V 环境中正确运行的第一步。所有使用 NVIDIA vGPU 的部署都始于从 NVIDIA 的许可门户下载合适的 host 驱动。

2.1 下载驱动

首先，前往 NVIDIA 官方许可门户，通过以下步骤获取驱动：

登录 NVIDIA 的许可门户（通常需要企业或合作伙伴账户）。
在“Driver Downloads”选项中，选择与您的产品（如 vGPU）相关的驱动程序。
确保选择的驱动程序与当前主机操作系统版本完全匹配。例如，针对 Azure Stack HCI 22H2 或 Windows Server 2022 版本选择对应驱动。
下载完成后，解压或存放在易于查找的位置备用。

请务必注意：不同型号的 GPU 或不同应用场景的 vGPU 软件版本可能需要不同的驱动。必须仔细检查产品文档，确保下载最新版本，以兼容分区和直通功能。

2.2 安装主机驱动

安装过程如下：

进入 Hyper-V 主机操作系统，在已下载驱动所在目录执行安装程序。
严格按照 NVIDIA 提供的安装指南进行操作。部分情况可能需要使用命令提示符进行手动安装，例如通过 pnputil 工具：
```
# 切换至驱动目录
pnputil /add-driver nvgridswhci.inf /subdirs /install /reboot  
```
确保安装过程中未出现错误，并在安装后重启系统以便驱动生效。

安装完驱动后，打开设备管理器确认 NVIDIA GPU 是否由 vGPU Manager 驱动正确接管，这将为后续的 GPU 分区和虚拟机配置铺平道路。

3. 配置 Hyper-V 环境与 GPU 分区

一旦主机驱动正确安装，下一步便是配置 Hyper-V 环境以实现对物理 GPU 的虚拟化支持。这一阶段主要包括启用 Hyper-V 的相关功能、配置网络与存储，以及通过 PowerShell 进行 GPU 分区或使用 Direct Device Assignment (DDA) 方法映射 GPU。

3.1 启用 Hyper-V

如果尚未启用 Hyper-V，需通过以下步骤启用必要的虚拟化组件：

使用 Windows 功能对话框启用 Hyper-V 角色。

或通过 PowerShell 命令启用：

# 启用Hyper-V角色
Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Hyper-V -All  <!-- # 注释: 重启系统使更改生效 -->

3.2 GPU 分区配置

对于 NVIDIA vGPU 的部署，可以使用 GPU 分区适配器将物理 GPU 映射到特定的虚拟机上。以下是一个常见的配置流程：

在 Hyper-V 管理器内，选择或者创建需要分配 GPU 的虚拟机。
通过虚拟机设置添加新的硬件，确定添加 GPU 设备。

使用 PowerShell 命令对虚拟机进行 GPU 分区配置。例如：

# 添加 GPU 分区适配器
Add-VMGpuPartitionAdapter -VMName "YourVMName"

# 设置 GPU 分区参数（例如设定最小与最大 VRAM 分配）
Set-VMGpuPartitionAdapter -VMName "YourVMName" -MinPartitionVRAM 100 -MaxPartitionVRAM 8192  <!-- # 注释: 根据实际资源配置 VRAM 数值 -->

在部分环境中，尤其是使用 Direct Device Assignment (DDA) 的场景下，则需要：
- 识别 GPU 设备的硬件标识符（如 PNPDeviceID），并释放主机对该设备的控制。
- 通过 PowerShell 命令将 GPU 分配给目标虚拟机。这一过程中，务必按照官方操作指南，确保停用 GPU 编码器等辅助组件。

设置完成后，虚拟机硬件列表中应当能够看到新的 GPU 分区适配器或 PCI 设备，这就为虚拟机内驱动安装奠定了基础。

3.3 Hyper-V 虚拟交换机与存储

虽然 GPU 分区配置是重点，但在整个部署过程中，网络和存储设置同样非常关键。建议通过 Hyper-V 管理器创建专用虚拟交换机，不仅为虚拟机提供高速网络支持，也能确保 GPU 分区与其它虚拟化组件协同工作。另外，确保服务器有足够的存储空间以容纳操作系统、虚拟机文件以及所需要的图形缓存。

4. 虚拟机内 NVIDIA vGPU Client 驱动的安装

完成主机与 Hyper-V 环境的配置后，下一步是在虚拟机内部安装 NVIDIA vGPU 驱动程序。这一步骤确保虚拟机内操作系统可以利用虚拟化后的 NVIDIA GPU 功能。

4.1 下载 Guest 驱动

在虚拟机内安装的驱动必须与操作系统兼容：

登录 NVIDIA 官方网站或许可门户，进入 vGPU 驱动下载专区，并选择适用于虚拟机内操作系统版本（例如 Windows 10/11、Windows Server 等）的驱动。
对于部分环境，还可能需要下载包含辅助工具及命令行工具（如 nvidia-smi）的版本。

4.2 驱动安装步骤

根据下载的驱动包，采取以下步骤：

将驱动安装包复制到虚拟机内。注意某些驱动包可能需要先解压，然后再启动安装向导。
双击安装程序，按照向导步骤进行安装。安装期间，可能会提示是否加载特定的 vGPU 驱动组件，务必全部勾选确认。
安装完成后，重启虚拟机。重新启动后的设备管理器中应显示 NVIDIA vGPU 设备，并能够通过 NVIDIA 控制面板或命令行工具进行管理。
如果需要，验证驱动与硬件之间的通信是否正确，可以使用 nvidia-smi 命令进行检查，确保输出信息中包含 vGPU 配置信息和驱动版本。

4.3 针对特定应用的配置

根据不同的应用场景，可能需要对 vGPU 配置进行调优。例如，针对图形设计、视频编辑或 AI 模型训练的应用程序，需要确保分配给虚拟机的 GPU 内存和计算资源充足。NVIDIA vGPU Manager 提供不同的配置文件（Profile），可以依据具体需求调整显存分配和计算加速能力。

5. 测试与验证

完成驱动安装与配置之后，必须对整个系统进行测试，以确认 NVIDIA vGPU 在 Hyper-V 环境下可以稳定运行。

5.1 使用命令行工具

在虚拟机内，可打开命令提示符并运行以下命令：

nvidia-smi —— 检查 GPU 状态，确认 vGPU 已被识别且驱动信息正确显示。
nvidia-smi vgpu -s —— 检查 vGPU 实例状态及分配情况，进一步确认配置完整性。

5.2 性能监控与调优

使用 Windows 任务管理器或第三方监控工具（如 GPU-Z）监控 GPU 使用率与显存使用情况。
如果发现性能瓶颈，根据应用需求在 NVIDIA 控制面板中调整 vGPU Profile。不同配置文件会影响虚拟机的图形加速能力与多用户支持能力。
定期更新主机和虚拟机内的 NVIDIA 驱动程序，确保获得最新的性能优化与功能更新。

5.3 故障排查

在安装和运行过程中可能遇到的常见问题包括：

设备管理器中未显示 NVIDIA GPU：需要检查主机驱动是否安装成功、BIOS 设置是否正确、IOMMU 是否启用。
虚拟机中安装驱动失败：确认上传驱动版本与虚拟机操作系统兼容，同时检查虚拟机配置的 GPU 分区是否正确连接。
性能异常问题：检查系统日志是否有显卡驱动错误信息，可能需要调整 vGPU 分区的 VRAM 分配或重新运行安装向导以校正配置。

6. 配置示例表格

下面是一张示例表格，由系统管理员可以使用的关键配置项概览，帮助在部署过程中参考：

配置项	推荐设置/说明
主机操作系统	Windows Server 2022 或 Azure Stack HCI 22H2
支持 GPU 型号	NVIDIA A40, A16, A10, A2, Tesla 或 GRID 系列
BIOS/固件设置	启用 IOMMU、VT-d 或 AMD-Vi
虚拟化角色	启用 Hyper-V 角色（PowerShell 启用命令：Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Hyper-V -All）
主机驱动	从 NVIDIA 官方许可门户下载对应版 vGPU Manager
虚拟机驱动	从 NVIDIA 官方下载，选择适合虚拟机操作系统的 vGPU 驱动
GPU 分区配置	通过 Add-VMGpuPartitionAdapter 及 Set-VMGpuPartitionAdapter 命令配置

7. 总结与注意事项

本文详细介绍了 NVIDIA vGPU 在 Hyper-V 平台上的完整部署流程，从准备环境、驱动下载与安装、Hyper-V 中 GPU 分区配置，到虚拟机内部驱动安装与性能验证。概括来说，整个部署过程可以分为以下主要步骤：

验证硬件与软件需求，包括支持 vGPU 的 NVIDIA GPU 型号、IOMMU 和兼容的操作系统。
从 NVIDIA 官方许可门户下载并安装适用于主机操作系统的 vGPU Manager 驱动，确保 GPU 正常被系统识别。
在 Hyper-V 环境中，启用 Hyper-V 角色、建立虚拟交换机、并通过 GPU 分区或 DDA 功能将物理 GPU 映射给指定虚拟机。
在虚拟机内安装对应的 NVIDIA vGPU 客户端驱动，确保系统可以检测并利用虚拟化后的 GPU 资源。
最终，通过 nvidia-smi 命令和系统监控工具验证 GPU 状态和性能，并根据实际应用需求进行必要的调优。

在部署过程中，务必参考最新的 NVIDIA 和 Microsoft 的官方文档。细节配置，例如 BIOS 设置、特定驱动版本选择和 GPU Profile 调整，都需要根据硬件型号和实际使用场景做出最佳设置。定期更新驱动程序可以确保系统获得最新的优化和安全补丁，从而进一步确保虚拟化平台的稳定与高性能。

结论

通过遵循上述详细步骤，企业管理员可以在 Hyper-V 平台上成功部署 NVIDIA Virtual GPU 解决方案，实现高度虚拟化环境中的先进图形与计算加速。无论是使用 GPU 分区适配器还是 Direct Device Assignment，关键在于确保每一步骤都按照官方要求执行。从主机的 BIOS 设置、驱动下载、安装到 Hyper-V 配置，再到虚拟机内的驱动安装与调优，每一环都至关重要。正确的设置将极大提升虚拟机的性能表现，为大规模图形应用和高性能计算提供坚实基础。

参考文献

在Hyper-V中配置vGPU - 哔哩哔哩
将GPU 分区并分配给虚拟机 - Hyper-V
NVIDIA vGPU 官方文档 - NVIDIA
NVIDIA Virtual GPU 软件 - NVIDIA