跳到主要內容

GPU-based workloads as a part of Airflow DAGs

如何讓在 Airflow 上跑的任務使用 GPU 資源



Step 1. 在既有的 Airflow 下新增有 GPU 的 Pool

使用參數 --accelerator 指定 GPU 的規格



gcloud beta container  node-pools create "gpu-pool" \
--cluster "mlworkflow-24aeef46-gke" \
--zone "us-east1-b" \
--machine-type "n1-standard-4" \
--accelerator "type=nvidia-tesla-p100,count=1" \
--image-type "COS_CONTAINERD" \
--num-nodes "3" 

Step 2. 測試 GPU 的功能是否正常


部署一個 Pod 來跑 nvidia-smi 指令

注意: GCP 在建立 GPU 的 Pool 時會自動加上 Taint 資訊如下 


spec:
  taints:
  - effect: NoSchedule
    key: nvidia.com/gpu
    value: present



Pod  的 deployment 要加上 Tolerations



cat <<EOF | kubectl apply -f -

apiVersion: v1
kind: Pod
metadata:
  labels:
    run: mig-none-example
  name: mig-none-example
spec:
  tolerations:
  - key: "nvidia.com/gpu"
    operator: "Exists"
    effect: "NoSchedule"
  containers:
  - image: nvidia/cuda:11.0-base
    name: mig-none-example
    resources:
      limits:
        nvidia.com/gpu: "1"
  restartPolicy: Always
status: {}

EOF

使用 kubectl 執行 nvidia-smi


kubectl exec -it mig-none-example -- nvidia-smi -L


Step 3. 編輯 Airflow DAG 檔


匯入 k8s client package

from kubernetes.client import models as k8s

使用 KubernetesPodOperator 來執行 GPU 任務


注意: 

1.這邊需要定義 Node Affinity 將要跑 GPU 的 Pod 部署在指定的 Node Pool 上



        affinity={
            'nodeAffinity': {
                'requiredDuringSchedulingIgnoredDuringExecution': {
                    'nodeSelectorTerms': [{
                        'matchExpressions': [{
                            'key': 'cloud.google.com/gke-nodepool',
                            'operator': 'In',
                            'values': [
                                "gpu-pool" 
                            ]
                        }]
                    }]
                }
            }
        },


2. 定義 Pod Toleration

        tolerations = [
            k8s.V1Toleration(key="nvidia.com/gpu", operator="Equal", value="present")    
        ],

3. Resource Limit

        resources=k8s.V1ResourceRequirements(
            limits={'nvidia.com/gpu': '1'}
        ),

完整的 KubernetesPodOperator 任務會長這樣



    run_notebook = kubernetes_pod_operator.KubernetesPodOperator(
        task_id=f"run_notebook",
        name=f"run_notebook",
        is_delete_operator_pod=True,
        image_pull_policy="IfNotPresent",
        startup_timeout_seconds=86400,
        execution_timeout=timedelta(seconds=86400),
        resources=k8s.V1ResourceRequirements(
            limits={'nvidia.com/gpu': '1'}
        ),
        cmds=['/bin/bash'],
        arguments=["-c",
        """
        # do something ... 
          
        """
        ],
        tolerations = [
            k8s.V1Toleration(key="nvidia.com/gpu", operator="Equal", value="present")    
        ],
        affinity={
            'nodeAffinity': {
                'requiredDuringSchedulingIgnoredDuringExecution': {
                    'nodeSelectorTerms': [{
                        'matchExpressions': [{
                            'key': 'cloud.google.com/gke-nodepool',
                            'operator': 'In',
                            'values': [
                                "highcpu-gpu-pool"
                            ]
                        }]
                    }]
                }
            }
        },
        image=f'gcr.io/deeplearning-platform-release/base-cu110:m87'
    )



[REF]

https://airflow.apache.org/docs/apache-airflow/2.0.2/_modules/airflow/example_dags/example_kubernetes_executor_config.html

https://thenewstack.io/getting-started-with-gpus-in-google-kubernetes-engine/



留言

這個網誌中的熱門文章

[解決方法] docker: permission denied

前言 當我們執行docker 指令時若出現以下錯誤訊息 docker: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create: dial unix /var/run/docker.sock: connect: permission denied. See 'docker run --help'. 表示目前的使用者身分沒有權限去存取docker engine, 因為docker的服務基本上都是以root的身分在執行的, 所以在指令前加sudo就能成功執行指令 但每次實行docker指令(就連docker ps)都還要加sudo實在有點麻煩, 正確的解法是 我們可以把目前使用者加到docker群組裡面, 當docker service 起來時, 會以這個群組的成員來初始化相關服務 sudo groupadd docker sudo usermod -aG docker $USER 需要退出重新登錄後才會生效 Workaround 因為問題是出在權限不足, 如果以上方法都不管用的話, 可以手動修改權限來解決這個問題 sudo chmod 777 /var/run/docker.sock https://docs.docker.com/install/linux/linux-postinstall/

[C#] Visual Studio, 如何在10分鐘內快速更改命名專案名稱

前言: 由於工作需要, 而且懶得再重寫類似的專案, 所以常常將之前寫的專案複製一份加料後, 再重新命名編譯 假設今天我有一個專案HolyUWP, 我想把它重新命名成 BestUWP 時該怎麼做? 以下是幾個簡單的的步驟 使用Visual Studio 2017 備份原來專案 更改Solution名稱 更改Assembly name, Default namespce 更改每支程式碼的Namespace 更改專案資料夾名稱 備份原來專案 由於怕改壞掉, 所以在改之前先備份 更改Solution名稱 更改sln的名稱, 這邊我改成BestUWP.sln 使用Visual Studio打開你的.sln, 右鍵點擊Solution後選擇Rename, 這邊我把它重新命名成BestUWP(跟檔案名稱一致) 必要的話可以順便修改Porject名稱 更改Assembly name, Default namespce 進入 Project > OOXX Properties    修改Assembly Name, Default namesapce 更改每支程式碼的Namespace 基本上隨便挑一支有用到預設Namesapce(HolyUWP)的程式碼來改就好了 重新命名後點擊Apply,  這個動作做完後所有用到舊Namespace的程式碼都會被改成新的 更改專案資料夾名稱 以上動作做完後, 基本上就可以把專案編譯出來測看看了~

[Visual Studio Code] 如何切換背景主題

在我們安裝完畢後,背景主題預設會是黑色 那如果不喜歡黑色 我們可以直接到 File > Preferences > Color Theme下做更換 點開Color Theme 後會發現,Visual Studio Code 內建了許多主題讓我們選擇 現在的Visual Studio Code提供Syntax HighLight的功能,方便我們複製貼上程式碼時能保有顏色 由於我希望複製貼上後的程式碼背景可以是白色的 所以我選擇了 Light(Visual Studio) 這個主題,結果如下