VLLM启动时NCCL遇到显卡P2P通信问题

Aug 7, 2024

背景

使用Xinference（VLLM）启动Qwen1.5-110b-awq模型，需要把模型加载到多块显卡上。

系统配置

OS: Ubuntu 24.04 LTS x86_64 
Kernel: 6.8.0-31-generic 
Shell: bash 5.2.21 
CPU: AMD Ryzen Threadripper 7960X 
GPU: NVIDIA RTX 6000 Ada Generation 
GPU: NVIDIA RTX 6000 Ada Generation 
GPU: NVIDIA RTX 6000 Ada Generation 
Memory: 26786MiB / 257222MiB

症状

开机之后，第一次启动多卡的模型可以正常启动，但是模型退出之后，要再次启动，就会卡住。显卡利用率100%，不占用显存，CPU线程占满核心。但是只占用单卡的模型不受影响。

按照 https://docs.vllm.ai/en/stable/getting_started/debugging.html 打开vllm日志，最后的日志卡在NCCL的Init COMPLETE。使用vllm debugging指南的test.py，情况相同。

不打卡调试日志，运行输出卡在：

(VllmWorkerProcess pid=2602361) INFO 07-12 19:04:18 pynccl.py:63] vLLM is using nccl==2.20.5

打卡调试日志，进一步看到：

nvidia5:3312182:3312204 [0] NCCL INFO comm 0x5654d4843400 rank 0 nranks 2 cudaDev 0 nvmlDev 2 busId 41000 commId 0x737ce38e08817c77 - Init COMPLETE
nvidia5:3312183:3312205 [1] NCCL INFO comm 0x561a161881d0 rank 1 nranks 2 cudaDev 1 nvmlDev 3 busId 61000 commId 0x737ce38e08817c77 - Init COMPLETE

尝试

解决

最后再NCCL文档的Troubleshooting里找到了答案：https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#pci-access-control-services-acs

IO virtualization (also known as VT-d or IOMMU) can interfere with GPU Direct by redirecting all PCI point-to-point traffic to the CPU root complex, causing a significant performance reduction or even a hang. You can check whether ACS is enabled on PCI bridges by running:
sudo lspci -vvv | grep ACSCtl

重启，进入BIOS，关闭IOMMU 和PCI ACS。再次启动，就恢复正常了。

后续

半年后在别的机器上又遇到了这个问题，不过表现得更诡异了：在刚开机时候是可以正常P2P通信的，运行了一段时间后再去重启模型，发现卡nccl了。而且不是所有的GPU会卡，是只有重启模型的那几张出现故障，其他的能正常通信。使用NCCL_P2P_DISABLE=1 选项后，能够加载权重，但无法进行推理。一检查ACSCtl，嘿又是你！