時(shí)間: 分類:推薦論文 次數(shù):
摘要:命名實(shí)體識別是自然語言處理中的重要任務(wù),相比于英文命名實(shí)體識別,面向中文的命名實(shí)體識別任務(wù)往往更具難度。針對中文命名實(shí)體識別中詞語信息丟失的問題,提出了一種基于Transformer編碼器的命名實(shí)體識別算法,在模型的字嵌入層中使用結(jié)合詞典的字向量編碼方法,從而讓字向量包含了詞語信息,同時(shí)針對Transformer編碼器在注意力運(yùn)算時(shí)會丟失字符的相對位臵信息的問題,修改了Transformer編碼器的注意力運(yùn)算方式并引入了相對位臵編碼,最后引入條件隨機(jī)場獲取最優(yōu)的標(biāo)簽序列。實(shí)驗(yàn)結(jié)果表明所提方法模型在兩個(gè)中文命名實(shí)體識別數(shù)據(jù)集Resume和Weibo數(shù)據(jù)集上較現(xiàn)有的主流模型具有更好的識別效果。
關(guān)鍵詞:自然語言處理;中文命名實(shí)體識別;Transformer編碼器;條件隨機(jī)場;相對位臵編碼
自然語言處理是近幾年熱門研究方向,其目的是讓計(jì)算機(jī)理解人類的語言并進(jìn)行有效交互。命名實(shí)體識別技術(shù)是自然語言處理中一項(xiàng)非常重要的技術(shù),其目的是識別語句中包含特定意義的實(shí)體,包括人名,地名,機(jī)構(gòu)名,專有名詞等。具體的命名實(shí)體識別任務(wù)又可分為通用領(lǐng)域的命名實(shí)體識別和特定領(lǐng)域的命名實(shí)體識別,如金融,醫(yī)療,軍事領(lǐng)域等1]。
命名實(shí)體識別技術(shù)的應(yīng)用場景十分廣闊,比如對文獻(xiàn)關(guān)鍵詞的提取,電子病歷中疾病特征的抽取等早期專業(yè)領(lǐng)域的命名實(shí)體識別多基于詞典和規(guī)則的方法,在過去的十年中基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于命名實(shí)體識別任務(wù)中。近幾年隨著計(jì)算機(jī)性能的不斷提升,基于深度學(xué)習(xí)的方法不斷刷新了命名實(shí)體識別任務(wù)的準(zhǔn)確率。基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法將命名實(shí)體識別任務(wù)視作序列標(biāo)注任務(wù),對文本中的每一個(gè)字打上對應(yīng)的標(biāo)簽,最后根據(jù)標(biāo)簽序列識別命名實(shí)體。
目前主流的基于深度學(xué)習(xí)的序列標(biāo)注模型通常采用字嵌入層,編碼層和解碼層三層結(jié)構(gòu),文本中的字首先通過字嵌入層生成對應(yīng)的字向量,然后在編碼層進(jìn)行上下文編碼以學(xué)習(xí)語義,最后在解碼層中生成對應(yīng)的標(biāo)簽,而不同的命名實(shí)體識別模型正是針對這三層進(jìn)行改動2]。
在自然語言處理任務(wù)中,RNN(Recurrent NeuralNetworks,循環(huán)神經(jīng)網(wǎng)絡(luò))被廣泛應(yīng)用于各種任務(wù)的編碼層,其中BiLSTM(idirectionalonghortermemoryetworks,長短期記憶網(wǎng)絡(luò))是命名實(shí)體識別任務(wù)中最為常見的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),Huang等人第一次提出了基于BiLSTM和CRF(ConditionalRandomField,條件隨機(jī)場)的命名實(shí)體識別模型3],利用iLSTM的雙向編碼能力進(jìn)行前后文編碼,利用CRF學(xué)習(xí)標(biāo)簽間的序列順序,是目前最為主流的命名實(shí)體識別模型。
Zhang和Yang于2018年提出了LatticeLSTM模型,在BiLSTM模型的基礎(chǔ)上進(jìn)一步改進(jìn),通過對編碼層的修改,在字向量中編碼了詞語的信息。文獻(xiàn)[4說明了BiLSTM采用的門結(jié)構(gòu)雖然能幫助解決梯度消失的問題,但是三個(gè)“門”單元也導(dǎo)致了計(jì)算量的增加,增加了模型的訓(xùn)練時(shí)間,而LatticeLSTM對編碼層的改進(jìn)也進(jìn)一步增大了模型的訓(xùn)練負(fù)擔(dān)。
近幾年來,由Vaswani等人提出的機(jī)器翻譯模型Transformer開始被廣泛應(yīng)用于各大自然語言處理任務(wù)中,其基于注意力機(jī)制獲取文本中字符間的長距離依賴,采用的并行結(jié)構(gòu)也可以提高模型的訓(xùn)練效率。但是在命名實(shí)體識別任務(wù)中,使用Transformer作為編碼器的表現(xiàn)并不理想,文獻(xiàn)11]說明其采用的絕對位臵編碼在經(jīng)過模型自身的注意力運(yùn)算后會丟失字符中的相對位臵信息,而影響最終的識別效果。
綜上所述,基于BiLSTM的模型在命名實(shí)體識別任務(wù)中表現(xiàn)良好,但是BiLSTM訓(xùn)練速度較慢,在此基礎(chǔ)上的Lattice—LSTM模型通過對編碼層的改動在字向量中添加了詞的信息,但是進(jìn)一步增加了模型的計(jì)算負(fù)擔(dān)。基于Transforemr編碼器的模型因?yàn)閬G失字符相對位臵信息的問題,無法充分發(fā)揮其性能。針對上述問題,本文提出了一種基于Transformer編碼器的命名實(shí)體識別模型,在模型的字嵌入層使用結(jié)合詞典的字向量編碼方式將詞語信息編碼進(jìn)字向量中;在Transformer編碼器層中,通過對自注意力計(jì)算方式的修改以及引入相對位臵編碼,在模型中引入了相對位臵信息。最后通過在兩個(gè)中文數(shù)據(jù)集上的對比實(shí)驗(yàn)驗(yàn)證了模型的實(shí)際效果。
本文的整體結(jié)構(gòu)如下,第二節(jié)詳細(xì)介紹了給予Transformer編碼器的命名實(shí)體識別模型的結(jié)構(gòu)及原理。第三節(jié)介紹了實(shí)驗(yàn)數(shù)據(jù)集以及實(shí)驗(yàn)環(huán)境,并介紹了實(shí)驗(yàn)的結(jié)果以及不同模型的對比分析。最后一節(jié)對本文的工作作了總結(jié)與展望。基于Transformer編碼器的命名實(shí)體識別模型模型的整體結(jié)構(gòu)可以分為三層,字嵌入層,Transformer編碼器層和條件隨機(jī)場層。字嵌入層中使用結(jié)合詞典的字向量編碼方法,生成包含詞語信息的字向量。Transformer編碼器層對字向量進(jìn)一步編碼以學(xué)習(xí)前后文特征,同時(shí)通過修改注意力運(yùn)算方式和引入相對位臵編碼,引入了字符的相對位臵信息。最后通過條件隨機(jī)場層獲取最優(yōu)的標(biāo)簽序列,根據(jù)標(biāo)簽序列識別命名實(shí)體。
結(jié)合詞語信息的字嵌入層在命名實(shí)體識別模型的字嵌入層,需要將輸入語句的每一個(gè)字映射為固定維度的字向量,以便后續(xù)的編碼。在中文命名實(shí)體識別任務(wù)中,基于字符的編碼方法難以利用詞語的信息,因此本文提出了一種結(jié)合詞典的字向量編碼方法,使生成的字向量可以包含詞語的信息。對于字向量的生成,首先需要進(jìn)行字嵌入模型的選擇。Word2vec是一款經(jīng)典的語言嵌入模型,文獻(xiàn)12對其作了詳細(xì)的介紹。其具體實(shí)現(xiàn)了兩個(gè)模型,SkipGram跳字模型和CBOW(ContinueBagofWords)連續(xù)詞袋模型。其中跳字模型的核心思想是使用中心字預(yù)測背景字,連續(xù)詞袋模型的核心思想是使用背景字預(yù)測中心字,這兩種方法都可以在不進(jìn)行人工標(biāo)注的前提下利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成字向量,同時(shí)字向量包含了周圍文本的信息15。在實(shí)際實(shí)驗(yàn)中,使用跳字模型生成字向量。
在選擇完字嵌入模型后,接下來具體介紹本章提出的融入詞語信息的字向量編碼方法。在Zhang和Yang提出的LatticeLSTM模型中,為了在編碼中加入詞語信息,對LSTM的結(jié)構(gòu)作了大幅的修改,從而在字嵌入的同時(shí)引入了詞的信息,并最終證明了在字向量中加入詞語信息可以增強(qiáng)中文命名實(shí)體識別任務(wù)的準(zhǔn)確率。
但是,Zhang和Yang的模型對LSTM的修改增加了訓(xùn)練時(shí)需要更新的參數(shù),提高了模型的計(jì)算開銷,同時(shí)這種修改難以應(yīng)用于使用其它神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼的命名實(shí)體識別模型,比如本文使用的Transformer編碼器模型。針對上述問題本文提出了一種相對簡單的在字嵌入層引入詞語信息的方法,這種方法只對命名實(shí)體識別模型的字嵌入層作了修改。從而保證了模型的整體計(jì)算效率不受太大的影響,同時(shí)這種方法也具有更強(qiáng)的可移植性。本文提出的字向量編碼方法可以分為三步。
首先,對于輸入的文本,進(jìn)行分句處理,然后使用Zhang和Yang在LatticeLSTM模型中開源的中文分詞詞典作為句中每個(gè)字對應(yīng)的詞典,其中包括約29萬雙字符詞匯和28萬三字符詞匯。然后,對于文本中的每一個(gè)字符,根據(jù)詞典匹配句子中所有包含這個(gè)字符的詞,使用B(c),M(c),E(c)三個(gè)集合編碼這個(gè)字具有的詞信息。其中,B(c)表示所有以字符開頭且長度大于的詞,M(c)表示包含字符且字符不在開頭和末尾的詞,E(c)表示以字符結(jié)尾且長度大于的詞,如果集合為空,則添加一個(gè)特殊的空詞None到集合中。
字符c5‘胃’出現(xiàn)在詞‘腸胃炎’的中間,詞‘胃炎’的首部,詞‘腸胃’的底部,因此,根據(jù)本文制定的規(guī)則,其對應(yīng)的詞向量集合B(c5)為{‘胃炎’},(c5)為{‘腸胃’},(c5)為{‘腸胃炎’},這樣做即可把句中字符‘胃’對應(yīng)的三個(gè)詞的信息‘腸胃’,‘胃炎’,‘腸胃炎’通過字符的三個(gè)集合完整的收錄。
實(shí)驗(yàn)結(jié)果及分析為了驗(yàn)證本章提出的基于Transformer編碼器的命名實(shí)體識別模型的效果,同時(shí)與其它基于深度學(xué)習(xí)的命名實(shí)體識別模型進(jìn)行對比,本文使用了兩個(gè)中文命名實(shí)體識別數(shù)據(jù)集Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),使用精確率,召回率以及F1值作為實(shí)驗(yàn)的主要評估指標(biāo),通過最終的實(shí)驗(yàn)結(jié)果驗(yàn)證命名實(shí)體識別模型的效果。
實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備實(shí)驗(yàn)使用的Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集均為公開的中文命名實(shí)體識別數(shù)據(jù)集。Weibo數(shù)據(jù)集是從中國的社交媒體新浪微博上選取并標(biāo)注的信息,具體包括了從2013年11月至2014年12月從微博采樣的約1900條消息。Resume數(shù)據(jù)集來源于新浪金融上的中文簡歷信息,包含人名,種族,職稱等類實(shí)體,總共涉及4731條經(jīng)過標(biāo)注的中文簡歷信息20。
其中,模型性能對超參數(shù)學(xué)習(xí)率和BatchSize較為敏感。在實(shí)際操作中,BatchSize選擇16,通過使用小批量的樣本集增加模型的迭代次數(shù),更快的達(dá)到擬合點(diǎn),相對的選擇0.001的學(xué)習(xí)率以保持訓(xùn)練的穩(wěn)定性,同時(shí)將dropout設(shè)為0.3防止模型過擬合3.3與其它模型的對比結(jié)果與分析為了驗(yàn)證本文提出的基于Transformer編碼器的命名實(shí)體識別模型的性能,同時(shí)比較其它的命名實(shí)體識別模型,本章引入了基于卷積神經(jīng)網(wǎng)絡(luò)的IDCNN+CRF模型22和經(jīng)典的BiLSTM+CRF模型作為對比模型,在Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集上分別進(jìn)行了對比實(shí)驗(yàn)。在實(shí)驗(yàn)結(jié)果中,因?yàn)樵谀P椭屑尤肓讼鄬ξ慌Z信息,使用Transformer+RelativePosition+CRF表示本文提出的命名實(shí)體識別模型。
本文提出的基于Transformer的命名實(shí)體識別模型在Resume數(shù)據(jù)集上取得了最好的成績,F(xiàn)1值達(dá)到了94.7%,略高于基于BiLSTM的模型和基于IDCNN的模型。同時(shí),基于Transformer編碼器的模型在第20個(gè)Epoch時(shí)F1值即開始增長緩慢,模型趨近于收斂,說明基于Transformer編碼器的模型相比基于BiLSTM的模型和基于IDCNN的模型取得了更快的收斂速度。在Weibo數(shù)據(jù)集上三個(gè)模型的效果都不理想,雖然本文提出的Transformer編碼器模型的F1值仍然領(lǐng)先于其它兩個(gè)模型,但也僅達(dá)到了百分之58.2,相比其它模型提升有限。
根據(jù)對Weibo數(shù)據(jù)集的觀察,三個(gè)模型識別效果均不佳的原因主要有兩點(diǎn),一是Weibo數(shù)據(jù)集的數(shù)據(jù)樣本量較小,模型訓(xùn)練效果不佳,二是weioboNER數(shù)據(jù)集中包含大量的人名類實(shí)體和地名類實(shí)體,比如‘李開復(fù)’和‘臺灣’,對于這種類型的實(shí)體基于深度學(xué)習(xí)的模型很難通過神經(jīng)網(wǎng)絡(luò)提取實(shí)體的特征,從而影響了最終的識別效果。
在本文提出的基于Transformer編碼器的命名實(shí)體識別模型中,分別對字嵌入層和Transformer編碼器層作了改進(jìn),其中字嵌入層使用了融合詞語信息的字向量編碼方法,Transformer編碼器層加入了相對位臵信息,為了驗(yàn)證這些改動的有效性,本文引入原生的Transformer+CRF的組合模型在Resume數(shù)據(jù)集上作進(jìn)一步的對比實(shí)驗(yàn)。
本文提出的基于Transformer的命名實(shí)體識別模型相比原生的Transformer+CRF模型,F(xiàn)1值取得了約2%的提升,證明了字嵌入層中詞語信息的引入以及Transformer編碼器層中相對位臵信息的引入提升了命名實(shí)體識別模型的最終識別效果。
計(jì)算機(jī)論文范例: 電子信息類專業(yè)計(jì)算機(jī)網(wǎng)絡(luò)課程的教學(xué)探究
結(jié)束語
本文針對中文領(lǐng)域命名實(shí)體識別任務(wù),提出了一種基于Transformer編碼器的命名實(shí)體識別方法,該方法通過在字嵌入層中使用結(jié)合詞典的字向量編碼方法讓字向量包含了詞語信息,在Transformer編碼器層中通過對注意力運(yùn)算方式的修改以及引入相對位臵編碼增加了字符的相對位臵信息,實(shí)驗(yàn)表明本文提出的命名實(shí)體識別模型在兩個(gè)中文數(shù)據(jù)集上相比其它主流的命名實(shí)體識別模型具有更好的效果,并驗(yàn)證了改動的有效性。在后續(xù)的工作中,將在更多數(shù)據(jù)集上與更多其它的基于深度學(xué)習(xí)的模型進(jìn)行對比,同時(shí)進(jìn)一步優(yōu)化模型,增強(qiáng)模型的泛化能力。
參考文獻(xiàn):
[1]YinZhangzhi,LiXinzi,HuangDegen,etal.ResearchonChineseNamedEntityRecognitionBasedonwordmodel[J].ActaSinicaSinicaSinica,2019,V.33(11):100105+111殷章志,李欣子,黃德根等.融合字詞模型的中文命名實(shí)體識別研究[J].中文信息學(xué)報(bào)2v.33(11):100105+111.
[2]WangHong,ShiJinchuan,ZhangZhiwei.SemanticrelationextractionofLSTMbasedonattentionmechanism[J].Computerapplicationresearch,2018,5(5):14171420王紅,史金釧,張志偉.基于注意力機(jī)制的LSTM的語義關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2018,5(5):14171420.
[3]HuangZ,XuW,YuK.BidirectionalLSTMCRFmodelsforsequencetagging[J].arXivpreprintarXiv:1508.01991,2015.
作者:司逸晨,管有慶
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1003-1707
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:0577-9154
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1001-4233
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大期刊,CSSCI南大期刊
ISSN:1671-7465
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1005-9245
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1002-896X
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大期刊,CSCD期刊,統(tǒng)計(jì)源期刊
ISSN:0254-1769
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1002-4921
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1002-5936
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1001-8867
刊期:進(jìn)入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統(tǒng)計(jì)源期刊
ISSN:1003-2886
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大期刊,統(tǒng)計(jì)源期刊,CSSCI南大期刊
ISSN:1000-5560
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2045-2322
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0284-1851
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2352-4928
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0169-4332
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0960-7412
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0048-9697
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0191-2917
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:1741-7007
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2238-7854
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2214-7144
刊期:進(jìn)入查看
格式:咨詢顧問