時(shí)間:2021年08月24日 分類:推薦論文 次數(shù):
摘要:命名實(shí)體識(shí)別是自然語(yǔ)言處理中的重要任務(wù),相比于英文命名實(shí)體識(shí)別,面向中文的命名實(shí)體識(shí)別任務(wù)往往更具難度。針對(duì)中文命名實(shí)體識(shí)別中詞語(yǔ)信息丟失的問(wèn)題,提出了一種基于Transformer編碼器的命名實(shí)體識(shí)別算法,在模型的字嵌入層中使用結(jié)合詞典的字向量編碼方法,從而讓字向量包含了詞語(yǔ)信息,同時(shí)針對(duì)Transformer編碼器在注意力運(yùn)算時(shí)會(huì)丟失字符的相對(duì)位臵信息的問(wèn)題,修改了Transformer編碼器的注意力運(yùn)算方式并引入了相對(duì)位臵編碼,最后引入條件隨機(jī)場(chǎng)獲取最優(yōu)的標(biāo)簽序列。實(shí)驗(yàn)結(jié)果表明所提方法模型在兩個(gè)中文命名實(shí)體識(shí)別數(shù)據(jù)集Resume和Weibo數(shù)據(jù)集上較現(xiàn)有的主流模型具有更好的識(shí)別效果。
關(guān)鍵詞:自然語(yǔ)言處理;中文命名實(shí)體識(shí)別;Transformer編碼器;條件隨機(jī)場(chǎng);相對(duì)位臵編碼
自然語(yǔ)言處理是近幾年熱門(mén)研究方向,其目的是讓計(jì)算機(jī)理解人類的語(yǔ)言并進(jìn)行有效交互。命名實(shí)體識(shí)別技術(shù)是自然語(yǔ)言處理中一項(xiàng)非常重要的技術(shù),其目的是識(shí)別語(yǔ)句中包含特定意義的實(shí)體,包括人名,地名,機(jī)構(gòu)名,專有名詞等。具體的命名實(shí)體識(shí)別任務(wù)又可分為通用領(lǐng)域的命名實(shí)體識(shí)別和特定領(lǐng)域的命名實(shí)體識(shí)別,如金融,醫(yī)療,軍事領(lǐng)域等1]。
命名實(shí)體識(shí)別技術(shù)的應(yīng)用場(chǎng)景十分廣闊,比如對(duì)文獻(xiàn)關(guān)鍵詞的提取,電子病歷中疾病特征的抽取等早期專業(yè)領(lǐng)域的命名實(shí)體識(shí)別多基于詞典和規(guī)則的方法,在過(guò)去的十年中基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于命名實(shí)體識(shí)別任務(wù)中。近幾年隨著計(jì)算機(jī)性能的不斷提升,基于深度學(xué)習(xí)的方法不斷刷新了命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確率。基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法將命名實(shí)體識(shí)別任務(wù)視作序列標(biāo)注任務(wù),對(duì)文本中的每一個(gè)字打上對(duì)應(yīng)的標(biāo)簽,最后根據(jù)標(biāo)簽序列識(shí)別命名實(shí)體。
目前主流的基于深度學(xué)習(xí)的序列標(biāo)注模型通常采用字嵌入層,編碼層和解碼層三層結(jié)構(gòu),文本中的字首先通過(guò)字嵌入層生成對(duì)應(yīng)的字向量,然后在編碼層進(jìn)行上下文編碼以學(xué)習(xí)語(yǔ)義,最后在解碼層中生成對(duì)應(yīng)的標(biāo)簽,而不同的命名實(shí)體識(shí)別模型正是針對(duì)這三層進(jìn)行改動(dòng)2]。
在自然語(yǔ)言處理任務(wù)中,RNN(Recurrent NeuralNetworks,循環(huán)神經(jīng)網(wǎng)絡(luò))被廣泛應(yīng)用于各種任務(wù)的編碼層,其中BiLSTM(idirectionalonghortermemoryetworks,長(zhǎng)短期記憶網(wǎng)絡(luò))是命名實(shí)體識(shí)別任務(wù)中最為常見(jiàn)的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),Huang等人第一次提出了基于BiLSTM和CRF(ConditionalRandomField,條件隨機(jī)場(chǎng))的命名實(shí)體識(shí)別模型3],利用iLSTM的雙向編碼能力進(jìn)行前后文編碼,利用CRF學(xué)習(xí)標(biāo)簽間的序列順序,是目前最為主流的命名實(shí)體識(shí)別模型。
Zhang和Yang于2018年提出了LatticeLSTM模型,在BiLSTM模型的基礎(chǔ)上進(jìn)一步改進(jìn),通過(guò)對(duì)編碼層的修改,在字向量中編碼了詞語(yǔ)的信息。文獻(xiàn)[4說(shuō)明了BiLSTM采用的門(mén)結(jié)構(gòu)雖然能幫助解決梯度消失的問(wèn)題,但是三個(gè)“門(mén)”單元也導(dǎo)致了計(jì)算量的增加,增加了模型的訓(xùn)練時(shí)間,而LatticeLSTM對(duì)編碼層的改進(jìn)也進(jìn)一步增大了模型的訓(xùn)練負(fù)擔(dān)。
近幾年來(lái),由Vaswani等人提出的機(jī)器翻譯模型Transformer開(kāi)始被廣泛應(yīng)用于各大自然語(yǔ)言處理任務(wù)中,其基于注意力機(jī)制獲取文本中字符間的長(zhǎng)距離依賴,采用的并行結(jié)構(gòu)也可以提高模型的訓(xùn)練效率。但是在命名實(shí)體識(shí)別任務(wù)中,使用Transformer作為編碼器的表現(xiàn)并不理想,文獻(xiàn)11]說(shuō)明其采用的絕對(duì)位臵編碼在經(jīng)過(guò)模型自身的注意力運(yùn)算后會(huì)丟失字符中的相對(duì)位臵信息,而影響最終的識(shí)別效果。
綜上所述,基于BiLSTM的模型在命名實(shí)體識(shí)別任務(wù)中表現(xiàn)良好,但是BiLSTM訓(xùn)練速度較慢,在此基礎(chǔ)上的Lattice—LSTM模型通過(guò)對(duì)編碼層的改動(dòng)在字向量中添加了詞的信息,但是進(jìn)一步增加了模型的計(jì)算負(fù)擔(dān)。基于Transforemr編碼器的模型因?yàn)閬G失字符相對(duì)位臵信息的問(wèn)題,無(wú)法充分發(fā)揮其性能。針對(duì)上述問(wèn)題,本文提出了一種基于Transformer編碼器的命名實(shí)體識(shí)別模型,在模型的字嵌入層使用結(jié)合詞典的字向量編碼方式將詞語(yǔ)信息編碼進(jìn)字向量中;在Transformer編碼器層中,通過(guò)對(duì)自注意力計(jì)算方式的修改以及引入相對(duì)位臵編碼,在模型中引入了相對(duì)位臵信息。最后通過(guò)在兩個(gè)中文數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)驗(yàn)證了模型的實(shí)際效果。
本文的整體結(jié)構(gòu)如下,第二節(jié)詳細(xì)介紹了給予Transformer編碼器的命名實(shí)體識(shí)別模型的結(jié)構(gòu)及原理。第三節(jié)介紹了實(shí)驗(yàn)數(shù)據(jù)集以及實(shí)驗(yàn)環(huán)境,并介紹了實(shí)驗(yàn)的結(jié)果以及不同模型的對(duì)比分析。最后一節(jié)對(duì)本文的工作作了總結(jié)與展望。基于Transformer編碼器的命名實(shí)體識(shí)別模型模型的整體結(jié)構(gòu)可以分為三層,字嵌入層,Transformer編碼器層和條件隨機(jī)場(chǎng)層。字嵌入層中使用結(jié)合詞典的字向量編碼方法,生成包含詞語(yǔ)信息的字向量。Transformer編碼器層對(duì)字向量進(jìn)一步編碼以學(xué)習(xí)前后文特征,同時(shí)通過(guò)修改注意力運(yùn)算方式和引入相對(duì)位臵編碼,引入了字符的相對(duì)位臵信息。最后通過(guò)條件隨機(jī)場(chǎng)層獲取最優(yōu)的標(biāo)簽序列,根據(jù)標(biāo)簽序列識(shí)別命名實(shí)體。
結(jié)合詞語(yǔ)信息的字嵌入層在命名實(shí)體識(shí)別模型的字嵌入層,需要將輸入語(yǔ)句的每一個(gè)字映射為固定維度的字向量,以便后續(xù)的編碼。在中文命名實(shí)體識(shí)別任務(wù)中,基于字符的編碼方法難以利用詞語(yǔ)的信息,因此本文提出了一種結(jié)合詞典的字向量編碼方法,使生成的字向量可以包含詞語(yǔ)的信息。對(duì)于字向量的生成,首先需要進(jìn)行字嵌入模型的選擇。Word2vec是一款經(jīng)典的語(yǔ)言嵌入模型,文獻(xiàn)12對(duì)其作了詳細(xì)的介紹。其具體實(shí)現(xiàn)了兩個(gè)模型,SkipGram跳字模型和CBOW(ContinueBagofWords)連續(xù)詞袋模型。其中跳字模型的核心思想是使用中心字預(yù)測(cè)背景字,連續(xù)詞袋模型的核心思想是使用背景字預(yù)測(cè)中心字,這兩種方法都可以在不進(jìn)行人工標(biāo)注的前提下利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成字向量,同時(shí)字向量包含了周圍文本的信息15。在實(shí)際實(shí)驗(yàn)中,使用跳字模型生成字向量。
在選擇完字嵌入模型后,接下來(lái)具體介紹本章提出的融入詞語(yǔ)信息的字向量編碼方法。在Zhang和Yang提出的LatticeLSTM模型中,為了在編碼中加入詞語(yǔ)信息,對(duì)LSTM的結(jié)構(gòu)作了大幅的修改,從而在字嵌入的同時(shí)引入了詞的信息,并最終證明了在字向量中加入詞語(yǔ)信息可以增強(qiáng)中文命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確率。
但是,Zhang和Yang的模型對(duì)LSTM的修改增加了訓(xùn)練時(shí)需要更新的參數(shù),提高了模型的計(jì)算開(kāi)銷,同時(shí)這種修改難以應(yīng)用于使用其它神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼的命名實(shí)體識(shí)別模型,比如本文使用的Transformer編碼器模型。針對(duì)上述問(wèn)題本文提出了一種相對(duì)簡(jiǎn)單的在字嵌入層引入詞語(yǔ)信息的方法,這種方法只對(duì)命名實(shí)體識(shí)別模型的字嵌入層作了修改。從而保證了模型的整體計(jì)算效率不受太大的影響,同時(shí)這種方法也具有更強(qiáng)的可移植性。本文提出的字向量編碼方法可以分為三步。
首先,對(duì)于輸入的文本,進(jìn)行分句處理,然后使用Zhang和Yang在LatticeLSTM模型中開(kāi)源的中文分詞詞典作為句中每個(gè)字對(duì)應(yīng)的詞典,其中包括約29萬(wàn)雙字符詞匯和28萬(wàn)三字符詞匯。然后,對(duì)于文本中的每一個(gè)字符,根據(jù)詞典匹配句子中所有包含這個(gè)字符的詞,使用B(c),M(c),E(c)三個(gè)集合編碼這個(gè)字具有的詞信息。其中,B(c)表示所有以字符開(kāi)頭且長(zhǎng)度大于的詞,M(c)表示包含字符且字符不在開(kāi)頭和末尾的詞,E(c)表示以字符結(jié)尾且長(zhǎng)度大于的詞,如果集合為空,則添加一個(gè)特殊的空詞None到集合中。
字符c5‘胃’出現(xiàn)在詞‘腸胃炎’的中間,詞‘胃炎’的首部,詞‘腸胃’的底部,因此,根據(jù)本文制定的規(guī)則,其對(duì)應(yīng)的詞向量集合B(c5)為{‘胃炎’},(c5)為{‘腸胃’},(c5)為{‘腸胃炎’},這樣做即可把句中字符‘胃’對(duì)應(yīng)的三個(gè)詞的信息‘腸胃’,‘胃炎’,‘腸胃炎’通過(guò)字符的三個(gè)集合完整的收錄。
實(shí)驗(yàn)結(jié)果及分析為了驗(yàn)證本章提出的基于Transformer編碼器的命名實(shí)體識(shí)別模型的效果,同時(shí)與其它基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型進(jìn)行對(duì)比,本文使用了兩個(gè)中文命名實(shí)體識(shí)別數(shù)據(jù)集Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),使用精確率,召回率以及F1值作為實(shí)驗(yàn)的主要評(píng)估指標(biāo),通過(guò)最終的實(shí)驗(yàn)結(jié)果驗(yàn)證命名實(shí)體識(shí)別模型的效果。
實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備實(shí)驗(yàn)使用的Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集均為公開(kāi)的中文命名實(shí)體識(shí)別數(shù)據(jù)集。Weibo數(shù)據(jù)集是從中國(guó)的社交媒體新浪微博上選取并標(biāo)注的信息,具體包括了從2013年11月至2014年12月從微博采樣的約1900條消息。Resume數(shù)據(jù)集來(lái)源于新浪金融上的中文簡(jiǎn)歷信息,包含人名,種族,職稱等類實(shí)體,總共涉及4731條經(jīng)過(guò)標(biāo)注的中文簡(jiǎn)歷信息20。
其中,模型性能對(duì)超參數(shù)學(xué)習(xí)率和BatchSize較為敏感。在實(shí)際操作中,BatchSize選擇16,通過(guò)使用小批量的樣本集增加模型的迭代次數(shù),更快的達(dá)到擬合點(diǎn),相對(duì)的選擇0.001的學(xué)習(xí)率以保持訓(xùn)練的穩(wěn)定性,同時(shí)將dropout設(shè)為0.3防止模型過(guò)擬合3.3與其它模型的對(duì)比結(jié)果與分析為了驗(yàn)證本文提出的基于Transformer編碼器的命名實(shí)體識(shí)別模型的性能,同時(shí)比較其它的命名實(shí)體識(shí)別模型,本章引入了基于卷積神經(jīng)網(wǎng)絡(luò)的IDCNN+CRF模型22和經(jīng)典的BiLSTM+CRF模型作為對(duì)比模型,在Weibo數(shù)據(jù)集和Resume數(shù)據(jù)集上分別進(jìn)行了對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)結(jié)果中,因?yàn)樵谀P椭屑尤肓讼鄬?duì)位臵信息,使用Transformer+RelativePosition+CRF表示本文提出的命名實(shí)體識(shí)別模型。
本文提出的基于Transformer的命名實(shí)體識(shí)別模型在Resume數(shù)據(jù)集上取得了最好的成績(jī),F(xiàn)1值達(dá)到了94.7%,略高于基于BiLSTM的模型和基于IDCNN的模型。同時(shí),基于Transformer編碼器的模型在第20個(gè)Epoch時(shí)F1值即開(kāi)始增長(zhǎng)緩慢,模型趨近于收斂,說(shuō)明基于Transformer編碼器的模型相比基于BiLSTM的模型和基于IDCNN的模型取得了更快的收斂速度。在Weibo數(shù)據(jù)集上三個(gè)模型的效果都不理想,雖然本文提出的Transformer編碼器模型的F1值仍然領(lǐng)先于其它兩個(gè)模型,但也僅達(dá)到了百分之58.2,相比其它模型提升有限。
根據(jù)對(duì)Weibo數(shù)據(jù)集的觀察,三個(gè)模型識(shí)別效果均不佳的原因主要有兩點(diǎn),一是Weibo數(shù)據(jù)集的數(shù)據(jù)樣本量較小,模型訓(xùn)練效果不佳,二是weioboNER數(shù)據(jù)集中包含大量的人名類實(shí)體和地名類實(shí)體,比如‘李開(kāi)復(fù)’和‘臺(tái)灣’,對(duì)于這種類型的實(shí)體基于深度學(xué)習(xí)的模型很難通過(guò)神經(jīng)網(wǎng)絡(luò)提取實(shí)體的特征,從而影響了最終的識(shí)別效果。
在本文提出的基于Transformer編碼器的命名實(shí)體識(shí)別模型中,分別對(duì)字嵌入層和Transformer編碼器層作了改進(jìn),其中字嵌入層使用了融合詞語(yǔ)信息的字向量編碼方法,Transformer編碼器層加入了相對(duì)位臵信息,為了驗(yàn)證這些改動(dòng)的有效性,本文引入原生的Transformer+CRF的組合模型在Resume數(shù)據(jù)集上作進(jìn)一步的對(duì)比實(shí)驗(yàn)。
本文提出的基于Transformer的命名實(shí)體識(shí)別模型相比原生的Transformer+CRF模型,F(xiàn)1值取得了約2%的提升,證明了字嵌入層中詞語(yǔ)信息的引入以及Transformer編碼器層中相對(duì)位臵信息的引入提升了命名實(shí)體識(shí)別模型的最終識(shí)別效果。
計(jì)算機(jī)論文范例: 電子信息類專業(yè)計(jì)算機(jī)網(wǎng)絡(luò)課程的教學(xué)探究
結(jié)束語(yǔ)
本文針對(duì)中文領(lǐng)域命名實(shí)體識(shí)別任務(wù),提出了一種基于Transformer編碼器的命名實(shí)體識(shí)別方法,該方法通過(guò)在字嵌入層中使用結(jié)合詞典的字向量編碼方法讓字向量包含了詞語(yǔ)信息,在Transformer編碼器層中通過(guò)對(duì)注意力運(yùn)算方式的修改以及引入相對(duì)位臵編碼增加了字符的相對(duì)位臵信息,實(shí)驗(yàn)表明本文提出的命名實(shí)體識(shí)別模型在兩個(gè)中文數(shù)據(jù)集上相比其它主流的命名實(shí)體識(shí)別模型具有更好的效果,并驗(yàn)證了改動(dòng)的有效性。在后續(xù)的工作中,將在更多數(shù)據(jù)集上與更多其它的基于深度學(xué)習(xí)的模型進(jìn)行對(duì)比,同時(shí)進(jìn)一步優(yōu)化模型,增強(qiáng)模型的泛化能力。
參考文獻(xiàn):
[1]YinZhangzhi,LiXinzi,HuangDegen,etal.ResearchonChineseNamedEntityRecognitionBasedonwordmodel[J].ActaSinicaSinicaSinica,2019,V.33(11):100105+111殷章志,李欣子,黃德根等.融合字詞模型的中文命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào)2v.33(11):100105+111.
[2]WangHong,ShiJinchuan,ZhangZhiwei.SemanticrelationextractionofLSTMbasedonattentionmechanism[J].Computerapplicationresearch,2018,5(5):14171420王紅,史金釧,張志偉.基于注意力機(jī)制的LSTM的語(yǔ)義關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2018,5(5):14171420.
[3]HuangZ,XuW,YuK.BidirectionalLSTMCRFmodelsforsequencetagging[J].arXivpreprintarXiv:1508.01991,2015.
作者:司逸晨,管有慶