跳到主要內容

實現多人協作的 Terraform 組態管理:以 GCP Cloud Storage 與 AWS S3 為例

實現多人協作的 Terraform 組態管理:以 GCP Cloud Storage 與 AWS S3 為例



Terraform 是當前主流的基礎設施即代碼(IaC)工具,能夠快速構建基礎設施。然而,在多人協作的環境中,必須確保不同人員之間不會發生 race condition 的情況,以避免潛在的衝突和問題。

為了解決這個問題,Terraform 提供了遠端狀態(remote state)和鎖定(lock)機制。遠端狀態(remote state)指的是將 apply 後的結果存儲在遠端儲存庫中,使得多人可以訪問同一份狀態,從而確保一致性。而鎖定(lock)機制則是避免多人同時修改狀態文件而引發的問題。


Terraform Lock 機制

產生 Lock ID :

當使用者開始對 Terraform 的狀態文件(.state)進行修改時,Terraform 會產生 Lock 相關資訊如下:

json
{ "ID":"be65a702-cd4b-543c-3e5c-9af9bc7b3d18", "Operation":"OperationTypeApply", "Info":"", "Who":"andy51002000@cs-682367130783-default", "Version":"1.7.5","Created":"2024-04-14T07:19:41.825202066Z", "Path":"terraform.tfstate" }


建立 .tflock 文件:

同時,Terraform 會在與狀態文件(.state)相同的目錄下創建一個名為 .tflock 的文件。這個文件用於表示當前狀態文件(.state)的鎖定狀態。


鎖定持續時間:

當使用者開始修改狀態文件(.state)時,該 .tflock 文件會一直存在,直到該使用者完成操作。這樣可以確保其他使用者在該時間段內無法修改同一個狀態文件(.state),從而避免衝突。


鎖定釋放:

當使用者完成對狀態文件(.state)的修改操作後,Terraform 會自動釋放 .tflock。這時候,.tflock 文件將被刪除。



使用 GCP Cloud Storage

在 GCP Cloud Storage 中實現多人協作模式非常簡單。只需在 Terraform 的後端(backend)中指定 Cloud Storage bucket 即可。當執行 apply 操作時,Terraform 會在該 bucket 中建立 lock 檔案(.tflock),等待流程完成後再刪除。


terraform { backend "gcs" { bucket = "your-bucket-name" prefix = "terraform/state" } }


以下是 Remote backend 使用 GCS 實現鎖定(lock)機制的做法

go
// Lock writes to a lock file, ensuring file creation. Returns the generation // number, which must be passed to Unlock(). func (c *remoteClient) Lock(info *statemgr.LockInfo) (string, error) { // update the path we're using // we can't set the ID until the info is written info.Path = c.lockFileURL() infoJson, err := json.Marshal(info) if err != nil { return "", err } lockFile := c.lockFile() w := lockFile.If(storage.Conditions{DoesNotExist: true}).NewWriter(c.storageContext) err = func() error { if _, err := w.Write(infoJson); err != nil { return err } return w.Close() }() if err != nil { return "", c.lockError(fmt.Errorf("writing %q failed: %v", c.lockFileURL(), err)) } info.ID = strconv.FormatInt(w.Attrs().Generation, 10) return info.ID, nil }

通過條件限制 storage.Conditions{DoesNotExist: true},只有當 lock 文件(.tflock)不存在時才允許寫入。這樣確保了在 GCS 中只會有一個 lock 文件(.tflock)存在。

在寫入過程中,如果出現任何錯誤,例如寫入失敗或其他錯誤,則無法完成鎖定(lock)操作。此時,程式會返回一個錯誤,表示無法進行鎖定(lock),並且不會繼續處理狀態文件(.state)的更新。這樣可以確保在出現任何問題時,不會對狀態文件(.state)進行不正確的修改。



使用 AWS S3

相比之下,在 AWS S3 中實現多人協作稍微複雜一些。除了指定 S3 的 bucket 外,還需要透過 DynamoDB 來實現鎖定(lock)機制。


terraform { backend "s3" { bucket = "your-bucket-name" key = "terraform/state" region = "your-region" dynamodb_table = "terraform_locks" } }

在這個設定中,DynamoDB table 用於存儲鎖定(lock)資訊,以確保同一時間只有一個人可以修改狀態。透過以上的配置,可以確保在多人協作的情況下,Terraform 的狀態管理能夠有效運作,從而確保基礎設施的順利建立和管理。


以下是 Remote backend 使用 AWS S3 以 Dynamo 實現鎖定(lock)機制的做法


go
func (c *RemoteClient) Lock(info *statemgr.LockInfo) (string, error) { ctx := context.TODO() log := c.logger(operationLockerLock) if c.ddbTable == "" { return "", nil } info.Path = c.lockPath() if info.ID == "" { lockID, err := uuid.GenerateUUID() if err != nil { return "", err } info.ID = lockID } log = logWithLockInfo(log, info) ctx, baselog := baselogging.NewHcLogger(ctx, log) ctx = baselogging.RegisterLogger(ctx, baselog) log.Info("Locking remote state") putParams := &dynamodb.PutItemInput{ Item: map[string]dynamodbtypes.AttributeValue{ "LockID": &dynamodbtypes.AttributeValueMemberS{ Value: c.lockPath(), }, "Info": &dynamodbtypes.AttributeValueMemberS{ Value: string(info.Marshal()), }, }, TableName: aws.String(c.ddbTable), ConditionExpression: aws.String("attribute_not_exists(LockID)"), } _, err := c.dynClient.PutItem(ctx, putParams) if err != nil { lockInfo, infoErr := c.getLockInfo(ctx) if infoErr != nil { err = errors.Join(err, infoErr) } lockErr := &statemgr.LockError{ Err: err, Info: lockInfo, } return "", lockErr } return info.ID, nil }

通過寫入條件限制 ConditionExpression: aws.String("attribute_not_exists(LockID)"),
只有當 lock 資訊不存在時才允許寫入。


Reference:
https://danielmangum.com/posts/tf-remote-state-backend-locking/

留言

這個網誌中的熱門文章

[解決方法] docker: permission denied

前言 當我們執行docker 指令時若出現以下錯誤訊息 docker: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create: dial unix /var/run/docker.sock: connect: permission denied. See 'docker run --help'. 表示目前的使用者身分沒有權限去存取docker engine, 因為docker的服務基本上都是以root的身分在執行的, 所以在指令前加sudo就能成功執行指令 但每次實行docker指令(就連docker ps)都還要加sudo實在有點麻煩, 正確的解法是 我們可以把目前使用者加到docker群組裡面, 當docker service 起來時, 會以這個群組的成員來初始化相關服務 sudo groupadd docker sudo usermod -aG docker $USER 需要退出重新登錄後才會生效 Workaround 因為問題是出在權限不足, 如果以上方法都不管用的話, 可以手動修改權限來解決這個問題 sudo chmod 777 /var/run/docker.sock https://docs.docker.com/install/linux/linux-postinstall/

[C#] Visual Studio, 如何在10分鐘內快速更改命名專案名稱

前言: 由於工作需要, 而且懶得再重寫類似的專案, 所以常常將之前寫的專案複製一份加料後, 再重新命名編譯 假設今天我有一個專案HolyUWP, 我想把它重新命名成 BestUWP 時該怎麼做? 以下是幾個簡單的的步驟 使用Visual Studio 2017 備份原來專案 更改Solution名稱 更改Assembly name, Default namespce 更改每支程式碼的Namespace 更改專案資料夾名稱 備份原來專案 由於怕改壞掉, 所以在改之前先備份 更改Solution名稱 更改sln的名稱, 這邊我改成BestUWP.sln 使用Visual Studio打開你的.sln, 右鍵點擊Solution後選擇Rename, 這邊我把它重新命名成BestUWP(跟檔案名稱一致) 必要的話可以順便修改Porject名稱 更改Assembly name, Default namespce 進入 Project > OOXX Properties    修改Assembly Name, Default namesapce 更改每支程式碼的Namespace 基本上隨便挑一支有用到預設Namesapce(HolyUWP)的程式碼來改就好了 重新命名後點擊Apply,  這個動作做完後所有用到舊Namespace的程式碼都會被改成新的 更改專案資料夾名稱 以上動作做完後, 基本上就可以把專案編譯出來測看看了~

[解決方法] mac 作業系統上無法使用 docker

  錯誤訊息 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? 原因 因為 docker 的設計是走 client-server 的架構,  如果少裝了 server 的部分就會出現以上的錯誤訊息 解決方法 因為 docker daemon 需要使用 linux kernel 上的某些功能, 所以若想要在 mac 的 OS X 上使用 docker 必須額外起一台 linux VM 給 docker daemon 用  Step 1. 安裝 virtual box $ brew install virtualbox --cask   Step 2. 安裝 docker machine $ brew install docker-machine --cask   Step 3. 設定 使用 docker-machine 建立 VM 跑容器 $docker-machine create --driver virtualbox default $docker-machine restart   輸出環境變數 $docker-machine env default 如果執行以上的指令出現錯誤訊息 Error checking TLS connection: ...  可以執行以下指令重新產生憑證 $docker-machine regenerate-certs 最後套用環境變數, 讓 docker 知道要怎麼去跟這台 VM 溝通  $eval $(docker-machine env default)   測試 若做完以上的步驟沒噴錯誤訊息的話, 可以跑個 hello-world 看看 docker daemon 有沒有起來 $docker run hello-world Unable to find image 'hello-world:latest' locally latest: Pulling from library/hello-world 0e03bdcc26d7: Pull complete Digest: sha256:95ddb6c31407e84e91a986b004aee40975cb0