跳到主要內容

發表文章

目前顯示的是有「GPU」標籤的文章

GPU-based workloads as a part of Airflow DAGs

如何讓在 Airflow 上跑的任務使用 GPU 資源 Step 1. 在既有的 Airflow 下新增有 GPU 的 Pool 使用參數 --accelerator 指定 GPU 的規格 gcloud beta container   node-pools create "gpu-pool" \ --cluster "mlworkflow-24aeef46-gke" \ --zone "us-east1-b" \ --machine-type "n1-standard-4" \ --accelerator "type=nvidia-tesla-p100,count=1" \ --image-type "COS_CONTAINERD" \ --num-nodes "3"  Step 2. 測試 GPU 的功能是否正常 部署一個 Pod 來跑 nvidia-smi 指令 注意: GCP 在建立 GPU 的 Pool 時會自動加上 Taint 資訊如下  spec:   taints:   - effect: NoSchedule     key: nvidia.com/gpu     value: present Pod  的 deployment 要加上 Tolerations cat <<EOF | kubectl apply -f - apiVersion: v1 kind: Pod metadata:   labels:     run: mig-none-example   name: mig-none-example spec:   tolerations:   - key: "nvidia.com/gpu"     operator: "Exists"     effect: "NoSchedule"   containers:   - image: nvidia/cuda:11.0-base     name: mig-none-example     resou...

如何在Container裡使用GPU

How to use GPU in docker container 前言 基本上原生的docker 容器是無法使用GPU資源 解決方法 必須使用NVIDIA的 Docker才可以讓容器吃到GPU的資源 以下是在Ubuntu上的安裝步驟 Step 1. (Optional) 安裝驅動 如果GPU的驅動已經裝好了化可以先略過這一步 sudo ubuntu-drivers autoinstall 安裝完之後可以用以下指令確認有沒有裝成功 nvidia-smi Step 2.  安裝 CUDA CUDA是個運算架構能夠輕易地時線平行運算 wget https://gist.githubusercontent.com/acerkr71a/29ecd032eeb178888fec0bb7660cc3bf/raw/03df656e945d7c56ee2d454e0ea83796e8eacfeb/install-cuda.sh && chmod +x installer.sh && ./installer.sh Step 3. 安裝NVIDIA 的 Docker wget https://gist.githubusercontent.com/acerkr71a/7c19e940f4029d86476309d63950d750/raw/a7f368c800b4ef2e23559ef5f13f97a540dc4499/install-nvidia-docker.sh && chmod +x docker-installer.sh && ./docker-installer.sh

[簡易教學]快速建立深度學習的環境 CUDA + Tensorflow + virtualenv

前言 隨著電腦運算能力的增強, 特別是GPU的出現, 讓深度學習這個領域變得非常火紅, 進而成為目前人工智慧的主流, 由於他實在很強大, 現在不管是Google, Amazon, 或是Microsoft都在積極地推出深度學習的相關應用, 難道深度學習只有像Google這種大公司才玩得起嗎?  ( 答案是:  No) 建立一套深度學習網路並沒有想像中那麼難, 以下就教各位如何快速地建立一個深度學習的環境 Step 1. 安裝NVidia驅動程式 一開始可以先用ubuntu-drivers devices列出你的顯卡需要裝什麼驅動, 如果沒有特別的偏好, 直接用 autoinstall來裝就可以了 ubuntu-drivers devices sudo ubuntu-drivers autoinstall 安裝完後建議重開機 Step 2. 檢查是否安裝成功 nvidia-smi 可以用來監測GPU的使用率 nvidia-smi 如果驅動有安裝成功, 基本上可以到目前GPU的使用狀況 Step 3. 安裝 CUDA & CUDNN # Add NVIDIA package repository sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_9.1.85-1_amd64.deb sudo apt install ./cuda-repo-ubuntu1604_9.1.85-1_amd64.deb wget http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1604/x86_64/nvidia-machine-learning-repo-ubuntu1604_1.0.0-1_amd64.d...

[解決方法] NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

前言 當我們安裝完nvidia 的driver後, 理論上使用nvidia-smi 應該要看到GPU的使用狀況如下 但如果是看到以下這個錯誤訊息, 表示NVidia的driver沒有成功裝起來 NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running 網路上的解法很多  1. 確認是否有插入顯卡 $ lspci | grep 'VGA' 如果系統有找到卡的話, 會顯示顯卡資訊  2. 確認security boot是否為disable的狀態     > 開機時, 進入Bios 設定畫面(若是Acer的電腦, 按Del 或是F2 即可進入Bios)   >  改成disable 後, 重開機再試看看   >  如果以上都不行, 那就只能試試大絕招了: 更新系統內核(kernel)  3. 確認kernel版本是否大於4.10 $ uname -a 結果如下, 目前內核版本是 4.15 若版本小於4.10, 那就必須升級 方法一: 下載內核然後安裝 wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-headers-4.15.7-041507_4.15.7-041507.201802280530_all.deb wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-headers-4.15.7-041507-generic_4.15.7-041507.201802280530_amd64.deb wget http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.15.7/linux-image-4.15.7-041507-gene...