meatball1982 发表于 2024-4-18 11:32:43

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

这个问题,看了很多,
01.有的是说pytorch,cuda和驱动不匹配。
02.有的是说,显存不够。
03.有的是让不用cudnn进行训练。


01.重新安装
02.换卡,或减小训练的batchsize
03. torch.backends.cudnn.enabled = False

不一定好用。

我的问题。
我的数据,是在普通环境下生成的。(base)
我用数据进行训练, 是在conda的环境中实现的。(bfactor)

因为在base和bfactor中,两个np不一定版本一样。所以对应的,pytorch在训练时,觉得两个版本不一样(cudnn觉得是bfactor的npy版本,实际是base版本)
我的解决方案是在bfactor环境中,重新生成一次数据。
暂时看,是好用的。

页: [1]
查看完整版本: RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED