時間:2020年03月11日 分類:經濟論文 次數:
摘要:事件抽取可以幫助人們從海量的文本中快速、準確地獲取感興趣的事件知識。然而,目前事件抽取的研究主要集中在從單一句子中抽取事件.由于事件構成的復雜性和語言表述的多樣性,多數情況下多句才能完整地描述一個事件。因此,從篇章中抽取出完整的結構化事件信息,顯得更有價值和意義。該文首先利用基于注意力機制的序列標注模型聯合抽取句子級事件的觸發詞和實體,與獨立進行實體抽取和事件識別相比,聯合標注的方法在F值上提升了1個百分點。然后利用多層感知機判斷實體在事件中扮演的角色。最后,在句子級事件抽取的基礎上,利用整數線性規劃的方法■進行全局推理.融合句子級事件信息,實現篇章級事件抽取.與基線模型相比.這種基于全局推理的篇章級事件抽取在F值上提升了3個百分點。
關鍵詞:篇章級事件抽取;聯合標注;全局推理
o引言
當今社會,互聯網已成為大部分人日常生活中不可或缺的一部分,在為人們的生活、學習、工作帶來極大方便的同時,互聯網中海量的非結構化文本也給用戶帶來信息冗余繁多的困擾。面對日益增長的非結構化文本數據,如何幫助人們理解并快速獲取文本中的知識,顯得尤為重要,而信息抽取技術的提出正是為了解決這個問題。作為自然語言處理(NaturalLanguageProcessing,NLP)技術中的關鍵任務,信息抽取在知識獲取中扮演著重要的角色。Grishman等⑴將信息抽取定義為:從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。而面向非結構化文本的事件抽取是信息抽取領域中的關鍵任務和重要的研究方向(其余還有實體抽取、關系抽取等),主要應用于事件知識圖譜的構建、事件信息獲取和輔助其他自然語言理解任務。
事件是個復雜的概念,在不同研究領域有不同的定義。事件抽取領域最具有影響力的評測會議----自動內容抽取(AutomaticContentExtrac-non,ACE®)評測會議將事件定義為:事件是發生在某個特定時間或時間段、某個特定地域范圍內,由一個或多個角色參與的一個或多個動作構成的事情或狀態的改變。事件中的相關術語具體定義如下:實體(entity):用戶感興趣的語義對象.通常是一個名詞(例如,“人物”);事件觸發詞(eventtrigger):觸發事件的核心詞,通常是動詞或者名詞(例如,“喪生”或“拍賣”);事件元素角色(eventargument):實體在事件中所扮演的角色•即事件的參與者;事件描述(eventmention):描述事件的一句話或者一個字段,通常會包含觸發詞和事件元素;事件類別(eventtype):事件觸發詞和事件角色共同決定了事件的類別。
事件觸發詞和實體描述進行了特殊標記,有下劃線的字段代表實體及其類別(例如,“10月31號”•時間),加粗字段代表觸發詞及其事件類別(“喪生”,死亡)。虛線連接觸發詞和實體.其上面文字代表實體在該事件中所扮演的角色。在本實例中,“喪生”觸發一個死亡事件,T0月31號”“桃園中正國際機場”“82人”在該事件中分別扮演時間、地點和受害者的事件角色.從而組成一個完整的事件,而實體“新加坡航空”在該事件中不扮演任何角色。由ACE中事件的定義及圖1實例可得,事件的組成要素主要包括事件的發生時間及地點,事件的參與角色以及與之相關的動作或狀態(觸發詞)。在現實世界中.每天都有各式多樣的不同場景、不同類型、不同粒度的事件發生,信息描述多樣化的同時也給事件抽取任務帶來難度。
作為自然語言處理中具有挑戰的任務,事件抽取主要研究如何從非結構化的文本信息中抽取出用戶感興趣的事件,并以結構化的形式呈現出來。目前事件抽取的研究主要集中在兩個子任務上:事件識別和事件元素識別。事件識別:識別文本中的由事件觸發詞引導的事件實例,并根據當前觸發詞和上下文信息判斷當前觸發的預定義事件類型。事件元素識別:若某句被判定為特定事件類型的事件描述,需判斷句中實體和事件觸發詞之間的關系,這里的關系即為實體在該事件中所扮演的角色。上述事件抽取定義主要是針對句子級別的,而現有的事件抽取框架按照文本粒度可分為句子級事件抽取和篇章級事件抽取。句子級事件抽取焦點集中于識別句子中每個詞可能提及的單個事件.以及判斷句子實體在該事件中扮演的角色。雖然句子級抽取考慮的事件類型足夠通用(ACE2005中定義了33種事件),但對于總結文檔內容來說,句子級抽取粒度太細了。現實場景中,一篇文檔通常包含一個或者多個事件,這些事件對于整體的重要性各不相同.而同一事件也可能會在文檔中被多次提及。
篇章級事件抽取以文本中描述的主要事件為中心,用簡潔、結構化的形式呈現給用戶。其在現實世界中直接面向用戶也具有明顯的適用性,它允許用戶快速獲取文檔中的事件內容、地點和時間,而不需要通讀全文。難點在于,篇章事件抽取需要高質量的句子級抽取結果以及相同事件不同事件描述之間事件元素的融合,考慮以下例句:例1:根據奧地利救災組織的統計,在阿爾卑斯山登山纜車失火慘劇中有155名乘客喪生。例2:奧地利一處滑雪勝地的登山纜車11號在阿爾卑斯山隧道發生纜車失火慘劇.受害者中包括有1999年世界女子花式滑雪冠軍施密特。例1和例2是描述同一災難事件的不同句子,分布在原文檔中不同的段落當中。例1中包含該災難事件的死亡人數和事故來源,例2中包含事件發生的時間和地點。事件描述例1和例2中的結構化事件信息需要融合才能得到完整的篇章級事件信息,篇章級事件抽取依賴于句子級抽取結果和跨句子的事件元素融合。
從理論出發,為了獲取篇章級事件的結構化信息,需要句子級事件抽取結果和事件共指關系判斷。目前針對篇章事件抽取研究較少,還沒有統一的統計學模型能從篇章中直接抽取出篇章的事件信息。相反,句子級事件抽取的研究日趨成熟,在句子級抽取結果的基礎上進行全局推斷提高篇章事件抽取的整體性能是本文研究的方向。本文采用管道(Pipeline)的方法將篇章級抽取問題分為3個子問題:①利用序列標注模型對句子進行實體和事件的聯合標注;②采用多層感知機對事件描述中的實體進行分類,判斷實體在該事件中所扮演的角色;③基于整數線性規劃做全局推理,得到篇章級結構化事件信息。在整個流程圖中不借助標注語料中的其他信息和外部資源。
總的來說,本文的貢獻在于以下3點:(1)提出了實體和事件的聯合標注模型.此模型可以更好地利用上下文中的實體和事件的相互依賴關系。(2)提出利用整數線性規劃的方法進行全局推理得到篇章事件抽取結果。(3)在ACE2005中文語料上進行實驗,實驗結果驗證了模型的有效性。
1方法
近年來,已經證明了神經網絡方法在自然語言處理領域的有效性。Zeng等Chen等⑶最先將深度學習的方法應用于關系抽取和事件抽取中,并取得了很好的效果。相對于傳統特征表示的方式,神經網絡將詞向量(Wordembedding)作為輸入,避免了傳統特征提取過程過分依賴詞性標注、句法分析等自然語言處理工具。在本節中,我們將介紹本文篇章級事件抽取采取的方法,主要包括實體和事件聯合標注、事件元素識別、全局推理。
1.1實體和事件聯合標注
實體和事件是緊密關聯的,兩者的表示相互依賴,但現有的事件抽取通常都對實體和事件分別建模。在目前事件抽取任務中.研究者一般將事件抽取分為3步:①實體識別:利用外部工具或者單一模型抽取句中的實體;②事件識別:抽取句中的觸發詞并判斷事件類型;③元素分類:判斷實體在事件中扮演的角色。實體識別和事件識別分開處理是常用的技術手段,但會忽略實體和事件觸發詞之間相互依賴的關系。
例如,在例句“奧巴馬離開白宮,迎接新的挑戰”中,“離開”作為觸發詞,觸發了一個離職類別的事件而不是運輸類別的事件。只分析“離開”一詞,會存在歧義,但在已知句中其他實體及其類別后(“白宮,組織機構”;“奧巴馬,人名”),更易判斷“離開”觸發離職事件;相反,當已知“離開”觸發離職事件,更易判斷“白宮”的實體類別是組織機構而不是地理位置。如何有效利用實體和事件觸發詞的依存關系,是本文提岀聯合標注模型的出發點。
本文采用序列標注模型從句中聯合標注實體和觸發詞,同時判斷它們的類別,并將其抽取結果作為事件元素標注的輸入。為了更好地建模上下文的關聯關系.我們將自注意力機制(self-attention)M加到模型中。目前有很多統計學習方法可以對中文文本中的詞進行識別并分類,但利用詞作為輸入需要先借助外部分詞工具.而序列標注方法能夠很好地解決中文詞間無間隔的問題。在自然語言處理中,很多基礎問題都可以用序列標注模型解決,比如中文分詞、詞性標注以及命名實體識別等。序列標注不僅能捕獲詞的邊界,同時也可以判斷當前詞的歸屬類別。
不同于文本分類,序列標注模型將輸入的句子看作一個序列,輸出是一個等長的符號序列,每個符號對應特定的含義。具體來講,序列標注模型給句子中的每個字符打上BIO的標簽,B表示字段開始(beginning),1表示字段中間(inside),0表示其他字段(outside),標簽后面跟的type表示字段的分類結果,例如.B-PER表示人名的起始字符,I-Attack表示觸發攻擊事件詞的中間字段。隨著深度學習在自然語言處理中的應用日趨成熟,利用神經網絡的方法表示字符特征,能更好地捕獲字以及上下文的信息。
在神經網絡中,目前主流的兩個方法是循環神經網絡(RecurrentNeuralNetworks,RNN)和卷積神經網絡(ConventionalNeuralNetworks,CNN)。相比之下,RNN比CNN更適合給序列進行建模,因為RNN的隱層既有當前時刻的輸入,也有前一時刻的隱層輸出,這使得它能通過循環反饋連接看到前面的信息,并且還具備非線性的擬合能力,因此利用RNN對序列到序列的建模是NLP中常用的手段。而長短期記憶網絡(LongShort-TermMemory,LSTM)能將過去和將來的序列考慮進來.使得上下文信息充分被利用為。在LSTM后加入條件隨機場(ConditionalRandomFields,CRF)能更多地考慮整個句子的局部特征的線性加權組合,計算聯合概率,優化了整個序列。同時.我們將自注意力機制加到模型中,主要目的是學習句子內部字符之間的依賴關系,捕獲句子的內部結構和語義信息。
1.2事件元素識別
文檔中每個句子經過上述的實體和事件聯合標注后,可獲得句中的實體及其實體類型和事件觸發詞及其事件類型。為得到句子級的事件結構化信息,需要進一步標注實體在事件中扮演的角色,即實體和觸發詞之間的關系(例女口,判別實體“155名乘客”在“死亡”事件類型中扮演了“受害者”的角色)。為了充分利用實體特征和句子中的事件信息,本文利用一個多層感知機實現實體的分類從而實現事件元素識別。輸入特征包括觸發詞、觸發詞類別、實體、實體類別、實體和觸發詞之間的位置信息以及當前句子通過LSTM的向量化表示。
1.3全局推理
在文檔文本中,重要的事件通常會被多次提及,即同一事件會有多個事件描述。經過上述句子級事件抽取,可獲得篇章中的一系列結構化事件信息。為獲得篇章級的事件信息,需要判斷多個事件描述是否指代同一事件,從而得到完整的事件信息。事件描述例1和例2分別通過“喪生”和“受害”觸發“死亡”事件類型,通過文本描述的相似程度可以進一步判斷例1和例2指代了同一事件,從而將兩者的事件元素進行融合得到篇章級的事件結構化信息。為了充分利用文本信息進行事件共指的判斷,本文采用整數線性規劃的方法進行全局推理,將獲取更好的事件共指判斷作為優化目標,將文本相似度作為優化目標的重要系數,在條件約束下,得到篇章級事件抽取的最優結果。
2模型
本節主要介紹上述方法所用的模型,包括基于自注意力機制的實體事件聯合標注模型、基于感知機的事件元素識別模型和基于整數線性規劃的全局推理。
3實驗
3.1數據
本文利用ACE評測發布的公開語料ACE2005中的中文語料作為實驗數據集。數據集中標注的實體類別包括:PER(Person,人物)、ORG(Organization,組織機構)、GPE(Geo-PoliticalEntity,政治或人文地理區域)、LOC(Location,地理位置)、FAC(Facility,含有設施的場所),VEH(Vehicle,運輸工具),WEA(Weapon,武器)以及VALUE(值)和TIMEC時間)。ACE2005中預定義33個事件子類別,每個事件類別都由不同的事件角色構成。本文參照Chen和Ji等進行數據的劃分時,其中569/64/64/篇文檔分別被用作訓練集/測試集/驗證集。利用P(Precision,精確率)、R(Recall,召回率)、尺值評價句子級的實體抽取和事件識別性能。參照Reichart等⑺采用的篇章級事件抽取評價方式,對于每篇文檔,將學習到的結構化事件信息和標準進行最大匹配,然后利用P、R和F,進行篇章級事件抽取性能的評測。
3.2參數
模型的一些實現細節如下:輸入的embedding為100維的詞向量,是通過在維基百科中文語料進行預訓練得到的。LSTM隱層維度為200,batch設定為50,學習率為0.000l,droupout為0.5.最終采用Adam作為優化器。
4相關研究
當前事件抽取按照研究方法可分為兩大類:基于模式匹配和基于統計模型。模式匹配的方法在特定領域能取到較好的精確度,典型的基于模式匹配的事件抽取系統有:ExDisco[l0]和FSA^。但該方法需要大量人工進行模板撰寫,而且普適性差,只適用于小規模的特定領域。基于統計學習的方法,在特征選取上又可分為兩類:基于傳統特征選取和基于神經網絡自動學習特征。傳統特征提取主要通過自然語言處理工具獲取各種有效的詞匯、句法和語義等特征,然后利用傳統分類模型(例如,最大爛模型和支持向量機模型)進行分類"“〕。隨著深度學習證明了其在NLP中的有效性,Chen等⑶率先將CNN應用到事件抽取中,并利用了距離信息來建模實體和觸發詞的位置關系;Nguyen等〔⑸提出一種基于RNN的模型進行事件識別和角色分類的聯合學習。
針對語料缺、不平衡等問題,Liu等借助外部語義資源進行事件識別;Chen等利用遠程監督的方法擴充訓練語料提高了事件抽取性能;Yang等〔屈借助篇章信息進行事件和實體的聯合抽取,并將其分為3個子問題:學習事件內部結構、學習事件與事件關系、學習實體抽取;Uu等⑴】利用雙語資源提高事件抽取的性能。這些方法在英文事件抽取數據集上取得了很好的效果。中文事件抽取方面,詞級的不匹配問題嚴重影響了漢語信息抽取中詞級模型的性能。為了解決該問題,Chen和Ji等⑷提出了基于特征的字符級BI()標注;Li等〔河定義了中文觸發詞的人工模板,這些方法都高度依賴于人工構建的模板和特征。從文本粒度看,目前事件抽取的相關研究主要針對句子級別的抽取.即識別句中觸發詞,并判斷實體在事件中所扮演的角色。但現實世界的文本大多是以篇章的形式出現,用戶更關心的是從篇章中獲得結果化的事件知識。
最早的事件抽取系統FRUMPY]采用事件模板匹配的方法進行篇章事件抽取。Huang等采用基于模式分類的方法,將篇章抽取看成兩個子問題:①角色槽填充;②句子關聯模型。Yang等[旳采用基于句子抽取結果以及文本特征發現主事件描述,并利用上下文元素補齊策略得到篇章事件結構化信息的方法,在中文金融事件抽取數據集上取得不錯的效果。總的來說,目前篇章事件抽取的研究主要集中在特定的領域,高度依賴人工規則,很難推廣到新的領域。而句子級事件抽取方法應用于更廣泛的領域,但生成的輸出粒度太細,無法提供好的文檔級事件信息。
5總結和展望
本文討論了事件抽取對于知識獲取的重要性,并闡述了句子級事件抽取和篇章級事件抽取的差異。相比句子級事件抽取的細粒度結果,篇章級事件抽取的結果能反映出完整的事件信息,具有更好的現實意義和實用價值。為了從文本中獲取篇章級事件信息,本文采用深度學習的方法抽取句子級事件信息,其模型由兩部分組成:基于序列標注的事件實體聯合抽取和基于多層感知機的事件元素識別。在句子級事件抽取基礎上,采取整數線性規劃進行全局推斷得到篇章級事件結構化信息。本文在ACE2005數據集上的實驗結果證明了方法的有效性。然而,基于Pipeline的方法不可避免地會帶來誤差的傳遞。如何利用端到端的模型.從篇章文本中直接抽取出事件結構化信息,提升篇章級事件抽取整體性能,是下一步主要研究方向和內容。
相關論文范文:大數據在審計分析程序中的應用研究
摘要:21世紀是世界經濟大發展的時代,是科學力量發揮巨大力量的時代,是極大改變人們思維方式和工作理念的時代,是創新引領未來和不斷變革發展的新時代。隨著計算機技術的普及,人們開始在日常工作中引入計算機技術,來幫助自己完成工作,這樣不僅可以提高效率,還可以保證工作質量,以達到事半功倍的效果,種種跡象表明人類社會已在計算機技術的引領下進入了空前大發展時期。