前言
DynamoDb 是Amazon提供的一種同時支援Key Value和Document 儲存方式的No SQL資料庫服務, 開發人員無需考慮環境的建置, 而是把資料庫當成服務來使用, 對於開發人員來說可以省去不少時間
此外, No SQL的形式, 也方便開發者不需要花費多餘的心思去設計Table Schema
Primary Key
我們在DynamoDb上建立的每一筆資料都需要指定Patition Key 當作區分資料的主鍵
Partition Key 顧名思義, 跟儲存資料的實體位置有關
我們也可以再多定義一個Sort Key跟Partition Key組合成複合型的Primary Key
擁有複合型主鍵的資料在儲存時, 相同Partition Key的資料會被儲存在相同的Partition內, 當我們在撈資料時, Dynamodb 會根據Sort Key將資料排序
Eventually Consistency Read(Default)
這是預設選項, 當資料寫入成功後, 不保證能馬上讀取到新資料, 也就是說想要在寫完後立即讀取的話, 有可能會讀到舊值
Strong Consistency Read
則是保證在寫完後可以立即讀取到新的值, 但Performance 會比較差
若我們儲存的資料不像金融資料那樣需要立即性的話, 建議還是使用Eventually Consistency Read, 成本會比較低
所以必須要以Primary Key(Partition + Sort Key)來作查詢
如果我們定義了複合式Primary Key但查詢時只給Partition Key, 最終結果則會得到ValidationException的錯誤訊息
An error occurred (ValidationException) when calling the GetItem operation: The provided key element does not match the schema
基本上, 查詢API可以方兩種: Scan 和 Query
簡單來說, 我們可以用Query API 將多筆資料根據Partition Key (以及Sort key)從資料庫中找出來
(查詢時並不一定要使用Sort Key)
若有使用Sort Key做查詢, 則DynamoDb會根據 Sort Key 將資料以Ascending Order的方式排序
但若希望結果是以Descending Order的順序呈現, 則可以將ScanIndexForwordParameter設為false
跟Query不一樣的地方是, Scan是把所有資料都先通通列出來, 然後再根據條件一一過濾, 所以效率會比Query 還差
總節
基本上, GetItem就像用小鑷子從砂石中把寶石給挑出來一樣, 你必須非常明確地知道, 物件的主要特徵是什麼(Primary Key), 而Query就像是拿著鏟子, 從土堆中把礦石挖出來, 我們可以根據少部分的特徵做挖掘, Scan則是操作一台大型挖土機, 什麼都不管就直接挖了
Local Secondary Index
基本上, 我們除了原本使用原本定義好的Partition Key 以及Sort Key來查詢資料外, Local Secondary Index允許我們使用另一個Attribute當作Sort Key來找資料, 但它必須要在Table生成時一起建立, 而且之後也不能刪除或修改
如上圖所示: 原本我們有A1(Partition Key), A2(Sort Key), 和其他Attribute(A3, A4, ...)
但我們可以使用A1+A3來建立Local Secondary Index
簡單的說就是:
Same Partition Key + Different Sort Key
Global Secondary Index
這種Index就比較彈性, 可以在任意時候建立Global Secondary Index,
除此之外, 也可以挑選不同的Partition Key和 Sort Key組合
簡單的說就是:
Different Partition Key + Different Sort Key
雖然Global Secondary Index 比前者更有彈性, 但是使用它的代價也不低, 因為它需要額外的Throughput,
除此之外,
Local Secondary Index 和 Global Secondary Index 都不強迫資料的一致性(No uniqueness requirement)
也就是說我們查詢的結果, 很有可能會有多筆資料擁有相同的Partition Key以及Sort Key
當我們建立Table時, 需要特別指定Read\Write Capacity Unit, 這些是讀寫時可能會消耗的計算單元
寫入
一個 Write Capacity = 1 x 1 KB Write per second
讀取
Strongly Consistent Read
一個 Read Capacity = 1 x 4 KB Read per second
Eventually Consistent Read
兩個 Read Capacity = 1 x 4 KB Read per second
基本上, DAX是採用Write Through的快取策略, 意思是資料在寫入資料庫時, 會同時一併寫到快取裡
而當欲存取的資料不在Cache裡面時, DAX會執行GetItem API從DynamoDb中將資料讀進來(Eventually Consistent Read)
透過存取Cache可以有效的提升讀取的效率, 也可以降低Read Capacity, 但這些都只是應用在Eventullay Consistent Read, 對於密集寫入的程式, 或是Strongly Consistent Read來說則不適用
Elasticache提供了兩種快取機制
Lazy Loading
被動的快取資料, 不會將每筆寫入資料庫的資料都存到快取裡, 而是當有需求時, 才跟去資料庫裡撈資料過來, 當下次有相同的請求時, 就可以直接從快取裡返回結果
優點: 比較節省資源
缺點: 第一筆查詢可能會較耗時, 因為要從資料庫中同步過來, 除此之外, 因為算是被動的快取資料, 所以當後端有資料更新時, 有可能會存取到舊的值
可以設定Time To Live(TTL), 表示資料的保存期限, 若讀取到過保的資料, 就需要從資料庫中讀新的過來
Write Through
主動地快取資料, 資料寫入資料庫時, 會同時寫到快取裡
優點: 快取裡的資料永遠是最新的
缺點: 耗資源, Cache可能會放很多將來用不到的資料, 且寫入時比前者更花時間, 因為同時還要再寫一份到快取
https://acloud.guru/forums/aws-certified-solutions-architect-associate/discussion/-KN2YTRouSfyMIJpEz3Z/dynamodb-eventual-vs-strongly-consistent-reads
https://stackoverflow.com/questions/43452219/what-is-the-difference-between-scan-and-query-in-dynamodb-when-use-scan-query
https://www.dynamodbguide.com/secondary-indexes
Partition Key 顧名思義, 跟儲存資料的實體位置有關
我們也可以再多定義一個Sort Key跟Partition Key組合成複合型的Primary Key
擁有複合型主鍵的資料在儲存時, 相同Partition Key的資料會被儲存在相同的Partition內, 當我們在撈資料時, Dynamodb 會根據Sort Key將資料排序
Consistency Model
目前DynamoDb 支援兩種Consistency Model:Eventually Consistency Read(Default)
這是預設選項, 當資料寫入成功後, 不保證能馬上讀取到新資料, 也就是說想要在寫完後立即讀取的話, 有可能會讀到舊值
Strong Consistency Read
則是保證在寫完後可以立即讀取到新的值, 但Performance 會比較差
若我們儲存的資料不像金融資料那樣需要立即性的話, 建議還是使用Eventually Consistency Read, 成本會比較低
查詢
若只要查詢單筆資料, 基本上可以使用GetItem API, 它的用途主要是用在想要取得某一明確的資料的時候,aws dynamodb get-item \
--table-name UserOrdersTable\
--key '{ "Username": {"S": "alexdebrie"}, "OrderId": {"S":"20160630-12928"} }'
所以必須要以Primary Key(Partition + Sort Key)來作查詢
如果我們定義了複合式Primary Key但查詢時只給Partition Key, 最終結果則會得到ValidationException的錯誤訊息
An error occurred (ValidationException) when calling the GetItem operation: The provided key element does not match the schema
多筆查詢方式Scan & Query
基本上, 查詢API可以方兩種: Scan 和 Query
Query
簡單來說, 我們可以用Query API 將多筆資料根據Partition Key (以及Sort key)從資料庫中找出來
aws dynamodb query --table-name UserOrdersTable \ --key-condition-expression "Username = :username" \ --expression-attribute-values '{ ":username": { "S": "alexdebrie" } }'
(查詢時並不一定要使用Sort Key)
若有使用Sort Key做查詢, 則DynamoDb會根據 Sort Key 將資料以Ascending Order的方式排序
但若希望結果是以Descending Order的順序呈現, 則可以將ScanIndexForwordParameter設為false
Scan
跟Query不一樣的地方是, Scan是把所有資料都先通通列出來, 然後再根據條件一一過濾, 所以效率會比Query 還差
aws dynamodb scan \ --table-name UserOrdersTable \
總節
基本上, GetItem就像用小鑷子從砂石中把寶石給挑出來一樣, 你必須非常明確地知道, 物件的主要特徵是什麼(Primary Key), 而Query就像是拿著鏟子, 從土堆中把礦石挖出來, 我們可以根據少部分的特徵做挖掘, Scan則是操作一台大型挖土機, 什麼都不管就直接挖了
Local Secondary Index & Global Secondary Index
為了提升查詢的速度, Dynamodb 提供兩種Index:Local Secondary Index
基本上, 我們除了原本使用原本定義好的Partition Key 以及Sort Key來查詢資料外, Local Secondary Index允許我們使用另一個Attribute當作Sort Key來找資料, 但它必須要在Table生成時一起建立, 而且之後也不能刪除或修改
如上圖所示: 原本我們有A1(Partition Key), A2(Sort Key), 和其他Attribute(A3, A4, ...)
但我們可以使用A1+A3來建立Local Secondary Index
簡單的說就是:
Same Partition Key + Different Sort Key
Global Secondary Index
這種Index就比較彈性, 可以在任意時候建立Global Secondary Index,
除此之外, 也可以挑選不同的Partition Key和 Sort Key組合
簡單的說就是:
Different Partition Key + Different Sort Key
雖然Global Secondary Index 比前者更有彈性, 但是使用它的代價也不低, 因為它需要額外的Throughput,
除此之外,
Local Secondary Index 和 Global Secondary Index 都不強迫資料的一致性(No uniqueness requirement)
也就是說我們查詢的結果, 很有可能會有多筆資料擁有相同的Partition Key以及Sort Key
Throughput
若要使用DynamoDb的話, 絕對要懂Throughput的計算, 這關係到月底帳單的可能金額當我們建立Table時, 需要特別指定Read\Write Capacity Unit, 這些是讀寫時可能會消耗的計算單元
寫入
一個 Write Capacity = 1 x 1 KB Write per second
讀取
Strongly Consistent Read
一個 Read Capacity = 1 x 4 KB Read per second
Eventually Consistent Read
兩個 Read Capacity = 1 x 4 KB Read per second
DAX
我們可以額外使用這個服務當作 DynamoDb 的In-memory Cache, 進而改善Eventually Consistent 讀取的反應時間基本上, DAX是採用Write Through的快取策略, 意思是資料在寫入資料庫時, 會同時一併寫到快取裡
而當欲存取的資料不在Cache裡面時, DAX會執行GetItem API從DynamoDb中將資料讀進來(Eventually Consistent Read)
透過存取Cache可以有效的提升讀取的效率, 也可以降低Read Capacity, 但這些都只是應用在Eventullay Consistent Read, 對於密集寫入的程式, 或是Strongly Consistent Read來說則不適用
Elasticache
除了DAX之外我們也可以用Elasticache來做DynamoDb的In-memory Cache, 跟DAX不同的是, 它並不一定要綁定DynamoDb, 它也可以應用在其他種類的資料庫上Elasticache提供了兩種快取機制
Lazy Loading
被動的快取資料, 不會將每筆寫入資料庫的資料都存到快取裡, 而是當有需求時, 才跟去資料庫裡撈資料過來, 當下次有相同的請求時, 就可以直接從快取裡返回結果
優點: 比較節省資源
缺點: 第一筆查詢可能會較耗時, 因為要從資料庫中同步過來, 除此之外, 因為算是被動的快取資料, 所以當後端有資料更新時, 有可能會存取到舊的值
可以設定Time To Live(TTL), 表示資料的保存期限, 若讀取到過保的資料, 就需要從資料庫中讀新的過來
Write Through
主動地快取資料, 資料寫入資料庫時, 會同時寫到快取裡
優點: 快取裡的資料永遠是最新的
缺點: 耗資源, Cache可能會放很多將來用不到的資料, 且寫入時比前者更花時間, 因為同時還要再寫一份到快取
https://acloud.guru/forums/aws-certified-solutions-architect-associate/discussion/-KN2YTRouSfyMIJpEz3Z/dynamodb-eventual-vs-strongly-consistent-reads
https://stackoverflow.com/questions/43452219/what-is-the-difference-between-scan-and-query-in-dynamodb-when-use-scan-query
https://www.dynamodbguide.com/secondary-indexes
留言
張貼留言