跳到主要內容

[NLP] 聊天機器人之語意識別自己來, 實作Named Entity Recognition 專名辨別


前言



這一兩年來Chat Bot變得非常的火紅, 許多科技大廠也紛紛釋出SDK讓開發者們可以很快速地開發bot, 並且自由地將bot部屬在他們的平台上, 如Google DialogFlow, Microsoft Azure Bot service + Luis, Amazon Alexa Skill, Facebook Wit,...
尤其是使用DialogFlow或是Azure Bot Service的開發者們, 還可以省去串接社群頻道的細節, 專心在商務邏輯的開發

這些Chat Bot背後都運用到Natural Language Understanding的技術, 將使用者輸入的句子解析成最有可能的意圖(Intent)以及句子當中我們感興趣的字詞(Entity)

有了Intent與Entity之後, Bot 就能夠根據這些資訊來回答使用者的問題

相關技術:
 Intent Classification: 預測目前的輸入句是屬於哪一種意圖
 Named Entity Recognition, NER(專名辨別): 從句子中挖出感興趣的字詞





基於這些技術, 開發者不需要在後端建立一大堆的條件判斷式, 以及Regular Expression

雖然這功能很好用, 但是天下沒有白吃的午餐, 這些服務的收費也是貴的很誇張, 如果想要省錢的話, 其實也可以透過開放資源自己去兜一個出來, 以下內容就教各位如何使用現成的開放資源來做NER


Step 1. 安裝相關python模組  nltk / sklearn_crfsuite / sklearn


$ pip install python-crfsuite nltk

下載NLTK上的套件
$ python -m nltk.downloader all

Step 2. 將相關模組匯入


import nltk
import pycrfsuite

Step 3. 選擇語料庫



NLTK download 做完之後, 本機上會出現許多語料庫可以讓我們直接使用

這次的示範使用conll2000的語料庫, 基本上裡面的句子都已經以 IOB(Inside–outside–beginning)的形式 被標註好了


IOB(Inside–outside–beginning)
將句子中的詞簡單的分三類Inside, outside, beginning來標註, 不感興趣的就標O, 感興趣的就標B或I, 而I 是用在複合字中的第一個字之後的字 如下
Alex is going to Los Angeles

句子當中我們可以定義Alex是這人名所以可以用person的縮寫來標註
Alex B-PER

is O
going O
to O
Los B-LOC
Angeles I-LOC

呼叫 .iob_sents( ) 把資料集的中的句子讀出來
train_sent = list(nltk.corpus.conll2000.iob_sents('train.txt'))
test_sent = list(nltk.corpus.conll2000.iob_sents('test.txt'))

可以試著把train_sent印出來看看, 結果會長這樣


[('Confidence', 'NN', 'B-NP'),
 ('in', 'IN', 'B-PP'),
 ('the', 'DT', 'B-NP'),

...


Step 4. 特徵抽取


將每個字轉換為特徵向量,

簡單的說,
我們會根據單字本身的特性, 如有沒有大小寫, 詞性(POSTAG)以及前後單字的特性, 合併出一個特徵向量
def word2features(sent, i):
    word = sent[i][0] #token
    postag = sent[i][1]
    features = [
        'bias',
        'word.lower=' + word.lower(),
        'word[-3:]=' + word[-3:],
        'word[-2:]=' + word[-2:],
        'word.isupper=%s' % word.isupper(),
        'word.istitle=%s' % word.istitle(),
        'word.isdigit=%s' % word.isdigit(),
        'postag=' + postag,
        'postag[:2]=' + postag[:2]
    ]
    
    # look up the previous word
    if i > 0:
        word1 =sent[i - 1][0]
        postag1 = sent[i - 1][1]
        features.extend([
            '-1:word.lower=' + word1.lower(),
            '-1:word.istitle=%s' % word1.istitle(),
            '-1:word.isupper=%s' % word1.isupper(),
            '-1:postag=' + postag1,
            '-1:postag[:2]=' + postag[:2] #we're interested in normal form 
        ])
    else:
        features.append('BOS')
        
    # loop up the next wrd
    if i < len(sent) -1:
        word2 = sent[i + 1][0]
        postag2 = sent[i + 1][1]
        features.extend([
            '+1:word.lower=' + word2.lower(),
            '+1:word.istitle=%s' % word2.istitle(),
            '+1:word.isupper=%s' % word2.isupper(),
            '+1:postag=' + postag2,
            '+1:postag[:2]=' +postag2[:2]
        ])
    else:
        features.append('EOS')
    return features
    
def sent2features(sent):
    return [ word2features(sent,i) for i in range(len(sent)) ]
    
def sent2labels(sent):
    return [ label for token, pos, label in sent]

def sent2tokens(sent):
    return [ token for token, pos, label in sent]


Step 5. 定義訓練函式


接下來我們需要初始化訓練器,

訓練器的輸入除了要有剛剛說的文字特徵之外, 還要有對應句子的IOB標註

def train():
    X_train = [ sent2features(s) for s in train_sent]
    Y_train = [ sent2labels(s) for s in train_sent]
    
    trainer = pycrfsuite.Trainer(verbose=False)
    trainer.set_params({
        'c1': 1.0,
        'c2': 1e-3,
        'max_iterations': 50,
        'feature.possible_transitions': True
    })
    
    for xseq, yseq in zip(X_train, Y_train):
        trainer.append(xseq, yseq)
        
    trainer.train('mytrain_model')

呼叫 train() 開始訓練我們的模型,

最後會產出mytrain_model



Step 6. 使用訓練好的模型


想要使用模型很簡單, 可以呼叫 .open()來載入剛剛訓練好的模型

def predict():
    tagger = pycrfsuite.Tagger()
    tagger.open('mytrain_model')
    example_set = test_sent[3]
    print(' '.join(sent2tokens(example_set)), end='\n\n')
    print("Predicted:", ' '.join(tagger.tag(sent2features(example_set))))
    print("Correct:  ", ' '.join(sent2labels(example_set)))

這是範例的 github網址, 有興趣的人可以載來玩看看


https://github.com/andy51002000/ner-crf-example.git


留言

這個網誌中的熱門文章

[解決方法] docker: permission denied

前言 當我們執行docker 指令時若出現以下錯誤訊息 docker: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create: dial unix /var/run/docker.sock: connect: permission denied. See 'docker run --help'. 表示目前的使用者身分沒有權限去存取docker engine, 因為docker的服務基本上都是以root的身分在執行的, 所以在指令前加sudo就能成功執行指令 但每次實行docker指令(就連docker ps)都還要加sudo實在有點麻煩, 正確的解法是 我們可以把目前使用者加到docker群組裡面, 當docker service 起來時, 會以這個群組的成員來初始化相關服務 sudo groupadd docker sudo usermod -aG docker $USER 需要退出重新登錄後才會生效 Workaround 因為問題是出在權限不足, 如果以上方法都不管用的話, 可以手動修改權限來解決這個問題 sudo chmod 777 /var/run/docker.sock https://docs.docker.com/install/linux/linux-postinstall/

[C#] Visual Studio, 如何在10分鐘內快速更改命名專案名稱

前言: 由於工作需要, 而且懶得再重寫類似的專案, 所以常常將之前寫的專案複製一份加料後, 再重新命名編譯 假設今天我有一個專案HolyUWP, 我想把它重新命名成 BestUWP 時該怎麼做? 以下是幾個簡單的的步驟 使用Visual Studio 2017 備份原來專案 更改Solution名稱 更改Assembly name, Default namespce 更改每支程式碼的Namespace 更改專案資料夾名稱 備份原來專案 由於怕改壞掉, 所以在改之前先備份 更改Solution名稱 更改sln的名稱, 這邊我改成BestUWP.sln 使用Visual Studio打開你的.sln, 右鍵點擊Solution後選擇Rename, 這邊我把它重新命名成BestUWP(跟檔案名稱一致) 必要的話可以順便修改Porject名稱 更改Assembly name, Default namespce 進入 Project > OOXX Properties    修改Assembly Name, Default namesapce 更改每支程式碼的Namespace 基本上隨便挑一支有用到預設Namesapce(HolyUWP)的程式碼來改就好了 重新命名後點擊Apply,  這個動作做完後所有用到舊Namespace的程式碼都會被改成新的 更改專案資料夾名稱 以上動作做完後, 基本上就可以把專案編譯出來測看看了~

[Visual Studio Code] 如何切換背景主題

在我們安裝完畢後,背景主題預設會是黑色 那如果不喜歡黑色 我們可以直接到 File > Preferences > Color Theme下做更換 點開Color Theme 後會發現,Visual Studio Code 內建了許多主題讓我們選擇 現在的Visual Studio Code提供Syntax HighLight的功能,方便我們複製貼上程式碼時能保有顏色 由於我希望複製貼上後的程式碼背景可以是白色的 所以我選擇了 Light(Visual Studio) 這個主題,結果如下