跳到主要內容

快速了解什麼是知識圖譜, 如何以Neo4j圖形資料庫實作知識圖譜(knowledge graph)


Understand What is Knowledge Graph and how to implement it by Neo4j


什麼是知識圖譜


簡單的說就是透過給定的關係, 把不同種類的資料給連結在一起而得出的關係網路, 最後我們可以藉由查詢關係的方式來獲取更深一層的答案


目前已知的知識圖譜有Freebase, DBpedia, 以及Bio2RDF(如果有興趣的話可以去Google一下, 這邊就暫不作介紹)


那我們要如何實現知識圖譜?


要實現知識圖譜並不難, 首先要定義資料的關係, 再來就是要有個圖形資料庫來儲存資料以及關係


在接下來的篇幅裡會介紹如何使用Neo4j圖形資料庫來實作知識圖譜


為什麼要用知識圖譜與圖形資料庫


對於小型且關係不怎麼複雜的資料來說, 其時RDB就很夠用了, 但是當資料越長越大, 而且關係越來越複雜時, RDB就很難去處理這種情況

而圖形資料庫就是為了解決這問題存在的, 省去了用RDB時需要的反覆JOIN



但圖形資料庫也不是萬能的, 比如說, 他不適合大量的及時儲存, 他只適合讀取


一般而言, 資料庫可以大約分成三個特性CAP來討論
因為物理限制, 所以通常資料庫只能滿足其中兩項, 而另一項就可能被犧牲掉



CAP

CAP = Consistency + Availability + Partition tolerance 一致性(Consistency) 拿資料的時候可以保證資料一致, 無論用戶端怎麼讀取,都要能夠正確讀取最新的資料 可用性(Availability ) 快速回應能力 分割容忍(Partition tolerance) 這個能力關係到資料庫好不好以及容不容易擴展





圖形資料庫Neo4j 基本概念


資料庫的結構



每筆資料在知識圖譜裡都表示成一個節點Node ,  每個節點裡面可以自帶一些屬性Property(比如說年齡, 性別, 工作), 而我們也可以在節點上黏上數個標籤Label來表示資料的類別, 當我們在查詢資料時就可以用Label來過濾資料而更精準地獲得答案,  除此之外節點與節點之間可以建立有向關係, 關係中也可以自帶屬性



如 人:安海瑟威 ----(演過 { 收入: $1M } )---> 電影: 黑暗騎士



 安海瑟威演出過黑暗騎士這部電影, 這個演出的關係中安海瑟威的片酬是$1M



簡單的說就是,

我們可以建立節點並給予標籤, 並且在節點間建立關係, 而每個節點又可以建立屬性來表達更詳細的資料特性


基本語法 建立資料 CREATE





這個範例就是建立四筆資料節點, 兩筆節點的標籤是Product, 一筆節點的標籤是Category, 而另一筆則是Supplier





查詢資料 MATCH RETURN MATCH 就有點像SQL中的FROM語法, 決定要從資料庫的哪裡去撈資料 RETURN 就像SELECT語法可以決定要撈出那些屬性 比如: 若要把Product這個標籤底下的所有節點的name給撈出來, 查詢語法可以這樣寫


MATCH (x:Product)
RETURN x.name


建立關係

在Product跟Category之間建立一個PartOf的關係











建立Supplier與Product的關係也是如法炮製
MATCH (x:Product)
MATCH (y:Supplier)
CREATE (y)-[:]




最後下MATCH RETURN語法把結果印出來就是長這樣





當然實務上也可以透過更簡短的指令把剛剛的節點以及關係建好
CREATE (s:Supplier{name:'LG'})-[:Supply]->(x:Product{name:'Mobile'})-[:PartOf]->(y:Category{name:'3C'})

CREATE (s)-[:Supply]->(x2:Product{name:'TV'})-[:PartOf]->(y)

RETURN x,x2,y,s
WHERE 這個語法很直覺就是在WHERE指定一些條件式來過濾資料



總結

雖然圖形資料庫以更簡單且直覺的方式來儲存和表示資料, 但也有幾個缺點 1. 無法並行運算 2. 無法有效率的顯示即時資料結構 3. 應付大量更新會很吃力 所以在採用圖形資料庫之前必須好好的評估一下對於專案的利弊, 而不是盲目的導入這個技術


留言

這個網誌中的熱門文章

[解決方法] docker: permission denied

前言 當我們執行docker 指令時若出現以下錯誤訊息 docker: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create: dial unix /var/run/docker.sock: connect: permission denied. See 'docker run --help'. 表示目前的使用者身分沒有權限去存取docker engine, 因為docker的服務基本上都是以root的身分在執行的, 所以在指令前加sudo就能成功執行指令 但每次實行docker指令(就連docker ps)都還要加sudo實在有點麻煩, 正確的解法是 我們可以把目前使用者加到docker群組裡面, 當docker service 起來時, 會以這個群組的成員來初始化相關服務 sudo groupadd docker sudo usermod -aG docker $USER 需要退出重新登錄後才會生效 Workaround 因為問題是出在權限不足, 如果以上方法都不管用的話, 可以手動修改權限來解決這個問題 sudo chmod 777 /var/run/docker.sock https://docs.docker.com/install/linux/linux-postinstall/

[C#] Visual Studio, 如何在10分鐘內快速更改命名專案名稱

前言: 由於工作需要, 而且懶得再重寫類似的專案, 所以常常將之前寫的專案複製一份加料後, 再重新命名編譯 假設今天我有一個專案HolyUWP, 我想把它重新命名成 BestUWP 時該怎麼做? 以下是幾個簡單的的步驟 使用Visual Studio 2017 備份原來專案 更改Solution名稱 更改Assembly name, Default namespce 更改每支程式碼的Namespace 更改專案資料夾名稱 備份原來專案 由於怕改壞掉, 所以在改之前先備份 更改Solution名稱 更改sln的名稱, 這邊我改成BestUWP.sln 使用Visual Studio打開你的.sln, 右鍵點擊Solution後選擇Rename, 這邊我把它重新命名成BestUWP(跟檔案名稱一致) 必要的話可以順便修改Porject名稱 更改Assembly name, Default namespce 進入 Project > OOXX Properties    修改Assembly Name, Default namesapce 更改每支程式碼的Namespace 基本上隨便挑一支有用到預設Namesapce(HolyUWP)的程式碼來改就好了 重新命名後點擊Apply,  這個動作做完後所有用到舊Namespace的程式碼都會被改成新的 更改專案資料夾名稱 以上動作做完後, 基本上就可以把專案編譯出來測看看了~

[Visual Studio Code] 如何切換背景主題

在我們安裝完畢後,背景主題預設會是黑色 那如果不喜歡黑色 我們可以直接到 File > Preferences > Color Theme下做更換 點開Color Theme 後會發現,Visual Studio Code 內建了許多主題讓我們選擇 現在的Visual Studio Code提供Syntax HighLight的功能,方便我們複製貼上程式碼時能保有顏色 由於我希望複製貼上後的程式碼背景可以是白色的 所以我選擇了 Light(Visual Studio) 這個主題,結果如下