跳到主要內容

[解決方法] NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.


前言


當我們安裝完nvidia 的driver後, 理論上使用nvidia-smi 應該要看到GPU的使用狀況如下



但如果是看到以下這個錯誤訊息, 表示NVidia的driver沒有成功裝起來


NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
網路上的解法很多

 1. 確認是否有插入顯卡


$ lspci | grep 'VGA'

如果系統有找到卡的話, 會顯示顯卡資訊




 2. 確認security boot是否為disable的狀態


    > 開機時, 進入Bios 設定畫面(若是Acer的電腦, 按Del 或是F2 即可進入Bios)



  >  改成disable 後, 重開機再試看看
  >  如果以上都不行, 那就只能試試大絕招了: 更新系統內核(kernel)


 3. 確認kernel版本是否大於4.10

$ uname -a
結果如下, 目前內核版本是 4.15



若版本小於4.10, 那就必須升級


方法一: 下載內核然後安裝

wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-headers-4.15.7-041507_4.15.7-041507.201802280530_all.deb

wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-headers-4.15.7-041507-generic_4.15.7-041507.201802280530_amd64.deb

wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-image-4.15.7-041507-generic_4.15.7-041507.201802280530_amd64.deb

sudo dpkg -i *.deb

升級完後再重新安裝 Nvidia Driver


方法二: 直接升級到Ubuntu 18.0


$ sudo do-release-upgrade -d


補充:

解除Nvidia Driver的方法

$ sudo apt-get remove --purge '^nvidia-.*'

最後, 希望大家看完這篇文章後, 可以順利地解決問題~


留言

  1. 大大您好,我們研究室目前也遇到一樣的問題,使用的是2080Ti
    目前kernel版本是4.15.45,nvidia驅動版本是410
    已經試過kernel降版/升版,還有驅動也有重裝過,但都無法使用
    想請教一下大大還有沒有別的方法?

    回覆刪除
    回覆
    1. 你有試過重新灌Ubuntu 18 然後先不要更新系統,然後直接安裝驅動嗎 ubuntu-drivers autoinstall

      可以分享你安裝的整個過程嗎,
      第一步,第二步,

      刪除
    2. 嘗試看看:
      sudo prime-select nvidia
      如果出現TypeError: a bytes-like object is required, not 'str',那麼就是python的問題,請把python的預設版本調回python2.7,你應該是用update-alternatives管理python版本的吧?是的話輸入以下指令:
      sudo update-alternatives --install /usr/bin/python python /usr/bin/python2.7 [取代成比較大的數字]
      這會讓python 預設版本回到python2.7,此時重新安裝nvidia-driver看看吧

      刪除
  2. 相同問題 我本來是成功的的(ppa)安裝的 結果隔天重開機就不行用了 kernel 4.15.0 nvidia 418 415都灌過無法 1060 gpu

    回覆刪除
    回覆
    1. 你有試過使用nvidia-smi 檢查驅動是否有成功裝起來嗎?我好像有遇過類似的,當時我是直接再重灌一次系統,用乾淨的環境去裝

      刪除

張貼留言

這個網誌中的熱門文章

[解決方法] docker: permission denied

前言 當我們執行docker 指令時若出現以下錯誤訊息 docker: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create: dial unix /var/run/docker.sock: connect: permission denied. See 'docker run --help'. 表示目前的使用者身分沒有權限去存取docker engine, 因為docker的服務基本上都是以root的身分在執行的, 所以在指令前加sudo就能成功執行指令 但每次實行docker指令(就連docker ps)都還要加sudo實在有點麻煩, 正確的解法是 我們可以把目前使用者加到docker群組裡面, 當docker service 起來時, 會以這個群組的成員來初始化相關服務 sudo groupadd docker sudo usermod -aG docker $USER 需要退出重新登錄後才會生效 Workaround 因為問題是出在權限不足, 如果以上方法都不管用的話, 可以手動修改權限來解決這個問題 sudo chmod 777 /var/run/docker.sock https://docs.docker.com/install/linux/linux-postinstall/

[C#] Visual Studio, 如何在10分鐘內快速更改命名專案名稱

前言: 由於工作需要, 而且懶得再重寫類似的專案, 所以常常將之前寫的專案複製一份加料後, 再重新命名編譯 假設今天我有一個專案HolyUWP, 我想把它重新命名成 BestUWP 時該怎麼做? 以下是幾個簡單的的步驟 使用Visual Studio 2017 備份原來專案 更改Solution名稱 更改Assembly name, Default namespce 更改每支程式碼的Namespace 更改專案資料夾名稱 備份原來專案 由於怕改壞掉, 所以在改之前先備份 更改Solution名稱 更改sln的名稱, 這邊我改成BestUWP.sln 使用Visual Studio打開你的.sln, 右鍵點擊Solution後選擇Rename, 這邊我把它重新命名成BestUWP(跟檔案名稱一致) 必要的話可以順便修改Porject名稱 更改Assembly name, Default namespce 進入 Project > OOXX Properties    修改Assembly Name, Default namesapce 更改每支程式碼的Namespace 基本上隨便挑一支有用到預設Namesapce(HolyUWP)的程式碼來改就好了 重新命名後點擊Apply,  這個動作做完後所有用到舊Namespace的程式碼都會被改成新的 更改專案資料夾名稱 以上動作做完後, 基本上就可以把專案編譯出來測看看了~

[解決方法] mac 作業系統上無法使用 docker

  錯誤訊息 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? 原因 因為 docker 的設計是走 client-server 的架構,  如果少裝了 server 的部分就會出現以上的錯誤訊息 解決方法 因為 docker daemon 需要使用 linux kernel 上的某些功能, 所以若想要在 mac 的 OS X 上使用 docker 必須額外起一台 linux VM 給 docker daemon 用  Step 1. 安裝 virtual box $ brew install virtualbox --cask   Step 2. 安裝 docker machine $ brew install docker-machine --cask   Step 3. 設定 使用 docker-machine 建立 VM 跑容器 $docker-machine create --driver virtualbox default $docker-machine restart   輸出環境變數 $docker-machine env default 如果執行以上的指令出現錯誤訊息 Error checking TLS connection: ...  可以執行以下指令重新產生憑證 $docker-machine regenerate-certs 最後套用環境變數, 讓 docker 知道要怎麼去跟這台 VM 溝通  $eval $(docker-machine env default)   測試 若做完以上的步驟沒噴錯誤訊息的話, 可以跑個 hello-world 看看 docker daemon 有沒有起來 $docker run hello-world Unable to find image 'hello-world:latest' locally latest: Pulling from library/hello-world 0e03bdcc26d7: Pull complete Digest: sha256:95ddb6c31407e84e91a986b004aee40975cb0