linux服务器cuda,cudnn的安装与卸载
寫在前面,拋開nvidia驅動和tf-gpu版本談cuda及cudnn的安裝都是耍流氓。大家一定要注意版本對應關系,我遇到了幾個典型的因版本不對應導致的問題,我會寫在本文后面。
機器顯卡為tesla t4.安裝的驅動為418.81.07;安裝的cuda版本為cuda10.0 ;cudnn版本為7.6.5;tf-gpu版本為1.14.0
1.卸載舊版本:
cuda的默認安裝在 /usr/local/下,用下面的命令卸載:
2.安裝新版本:
下載自己對應的cuda,鏈接:https://developer.nvidia.com/cuda-toolkit-archive
下載.run文件后上傳到/usr/local/ 文件下,這里為了方便直接下載到了/usr/local
第一部分,安裝命令:
cd /usr/local/sudo chmod a+x cuda_10.0.130_410.48_linux.runsudo ./cuda_10.0.130_410.48_linux.run --no-opengl-libs接下來就輸入accept,然后除了提示安裝opengl鏈接庫的時候和拷貝samples輸入n外,其余輸入y。安裝完成,重啟機器。
第二部分,環(huán)境變量(注意換成自己的路徑):
或者使用命令打開.bashrc,即
sudo gedit ~/.bashrc
在最后面添加(注意換成自己的路徑):
完后,利用nvcc -V查看,輸出正常即可。
3.我遇到的問題(按順序來):
首先,我全部裝完后(注意這時我的驅動版本不是418.181.07,而是410.129).運行代碼后發(fā)現(xiàn)第一個問題:
failed call to cuInit: CUDA_ERROR_UNKNOWN
我查閱博客發(fā)現(xiàn)有可能是cuda沒正確安裝,測試我的cuda是否正確安裝,通過下列指令:
cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery sudo make ./deviceQuery報錯 cudaGetDeviceCount returned 30 -> unknown error Result = FAIL
注意這里,我以為是我的cuda沒有正確安裝,但是通過nvcc -V是可以查出來版本的,證明cuda沒有裝錯,有可能是驅動不對勁。我掙扎了好久終于決定,裝一個新的驅動,即將410.129變?yōu)?18.181.07.裝完后,發(fā)現(xiàn)上述兩個問題都解決了。所以我的問題根本就是:驅動版本與cuda不匹配。但是但是但是,我在搜素驅動的時候,cuda版本一欄我勾選的是10.0,然后推薦的就是410.129這個,為什么會不行呢,很奇怪(這也告訴我們,推薦的不一定好用)。第二把,在勾選的時候我選擇了cuda10.1,推薦的驅動版本為418.181.07.因為是向下兼容的,然后就可以用了。
4.cudnn的安裝:
下載鏈接:https://developer.nvidia.com/rdp/cudnn-archive
相對簡單,去官網(wǎng)下載對應版本的cudnn(需注冊賬號),比如我下載后是:cudnn-10.0-linux-x64-v7.6.5.32.solitairetheme8,放在了 ' / ' 路徑下
解壓后,會產生cuda文件夾:
sudo cp cuda/include/cudnn.h /usr/local/cuda-xx.x/include # 按需更改cuda路徑 sudo cp cuda/lib64/libcudnn* /usr/local/cuda-xx.x/lib64 # 按需更改cuda路徑 sudo chmod a+r /usr/local/cuda-xx.xx/include/cudnn.h /usr/local/cuda-xx.xx/lib64/libcudnn*到這里nvidia驅動,cuda以及cudnn全部安裝完畢。本文注重記錄問題,有些步驟不是很詳細,這里有幾篇博客,可以說是保姆級教程,建議初學者使用:
cuda安裝:https://blog.csdn.net/qq_29720657/article/details/109076087
? ? ? ? ? ? ? ? ??https://blog.csdn.net/zbr794866300/article/details/106574704
驅動安裝:https://blog.csdn.net/qq_30163461/article/details/80314630
總結
以上是生活随笔為你收集整理的linux服务器cuda,cudnn的安装与卸载的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux服务器nvidia驱动的安装与
- 下一篇: 记录 之 离线安装docker