解决Linux系统下睡眠唤醒后CUDA找不到设备问题

问题

最近发现,我的Kubuntu主机在睡眠唤醒后,再启动python,加载torch后会报告找不到设备,只能重启。这个问题该如何解决?

方案

经过搜索,发现了 CUDA not working after returning laptop from sleep 这个文章。其中提到了,可能是Linux下驱动的问题,导致睡眠唤醒后,CUDA设备无法找到。同时,文章也给出了解决方案。

我这里执行的经验,是执行rmmod nvidia_uvm时会报告该模块仍然在被使用。此时只需要检查下休眠之前在使用CUDA的进程,都结束掉就可以rmmod成功了。

验证

在rmmod并modprobe后,python下的torch又可以成功找到CUDA设备正常运行了。问题解决。

发表评论

为防机器,验证码请直接输入4个数字1

*