第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

科技術語自動提取技術現狀與思考

時間:2021年12月20日 分類:科學技術論文 次數:

摘要:文章簡要介紹了自動術語提取任務的定義、主要方法和評價指標。針對傳統的自動術語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術語度的概念;針對自動術語標注方法,主要介紹了基于序列標注的建模思想。從提取效果來看,現有自動術語提取技術距

  摘要:文章簡要介紹了自動術語提取任務的定義、主要方法和評價指標。針對傳統的自動術語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術語度的概念;針對自動術語標注方法,主要介紹了基于序列標注的建模思想。從提取效果來看,現有自動術語提取技術距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。

  關鍵詞:自動術語提取;自動術語標注;單元度;術語度;機器學習

術語自動提取

  引言

  術語(term)是“各門學科的專門用語,在專業范圍內表示單一的專門概念”[1]。術語處在專業知識體系構建的基石位置,術語的獲取、整理和規范不僅對專業知識體系的構建和發展有重要作用,也會對專業領域之外的其他許多行業產生影響。傳統上,術語的收集整理主要依靠領域專家進行,這種工作方式的優點是高質量,缺點也很明顯,成本高,速度慢,難以適應當今科技高速發展中術語大量急速涌現的現狀。

  20世紀90年代前后,伴隨著語料庫建設的進步,利用信息技術和自然語言處理技術進行術語快速獲取———自動術語提取(automatictermextraction,ATE)的想法就應運而生并成為一個重要的研究議題[2]。術語自動提取有著不言而喻的重要意義。如 果擁有可靠的術語自動提取技術,科技術語整理、審定與專業詞典編纂的工作效率和質量就會得到極大提高。

  術語作為一種特殊詞匯,在語言實踐中,也常有與普通語言詞匯不同的處理策略和規律,可靠的術語自動提取技術也會對許多語言文字工作帶來積極影響,例如,在翻譯、教育等很多行業,及時、規范、全面的術語資源都是非常寶貴的資源。術語提取和識別還是專業自然語言理解的基礎技術,對于自然語言處理而言,術語通常都是未登錄詞(outofvocabulary,OOV),術語自動提取技術的進步有助于改善自然語言處理系統未登錄詞的處理能力,有助于推動專業文本機器理解技術的發展。經過研究人員近三十年的努力,自動術語提取技術取得了許多進展,也出現了一些術語提取工具。

  例如,在許多機器輔助翻譯平臺中都有相應的自動術語管理和提取工具,譬如在著名的機器輔助翻譯平臺SDL-Trados中就配備了術語提取組件SDLMultiTermExtract,可用于輔助翻譯工作者定位專業文檔及翻譯記憶庫中潛在的單語或者雙語術語,從而輔助翻譯工作者改進術語翻譯質量。不過,自動術語提取也是一個有挑戰性的研究任務,總的看來,自動術語提取技術的性能還不能令人滿意,還需要研究人員的持續攻關和努力。

  1自動術語提取的任務定義

  自動術語提取研究從特定專業文本中提取術語的自動技術和方法。自動術語提取系統的輸入是特定領域的專業文本,任務是通過對這些文本的自動分析和處理,提取其中的術語條目并以列表的形式輸出。例如,從給定計算語言學文本中,提取其中的計算語言學術語。盡管自動術語提取系統在應用時面向特定的目標領域,但現有自動提取技術基本上是通用的,并不因為所處理的領域不同采用不同的方法。為了指稱的統一,在本文中,我們把自動術語提取所處理的特定領域文本統稱為目標領域文本,即自動術語提取系統的輸入是目標領域文本,輸出是目標領域文本中所使用的目標領域術語條目。

  文獻中,除了術語自動提取這個名稱外,還有一些其他說法也指向術語提取或相關研究,例如,自動術語識別(automatictermrecognition或automatictermidentification)、自動術語檢測(automatictermdetection)、自動術語挖掘(automatictermmining)等。許多文獻不加區別地使用這些術語,含義都是從目標領域文本中提取相應的術語條目。不過,這里也想特別指出,針對目標領域文本中的術語,從語型(type)和語例(token)兩個處理角度,實際上可以構思出兩種既相互聯系又相互區別的處理任務。在語型處理層面,旨在提取目標領域文本中的術語條目,而不關心精確標記術語條目在目標領域文本中的每個使用實例。

  與之不同,我們還可以界定一種語例層面的自動術語處理任務,即在目標領域文本中精確標記所有的術語實例。傳統上所說的自動術語提取主要指語型層面的處理,我們在本文中稱之為自動術語提取。為了與之區別,在本文中,我們把上述語例層面的術語處理任務統一稱作自動術語標注(automatictermlabelling,ATL)任務。自動術語標注和提取可以獨立研究,但也可以結合進行。

  事實上,可以將自動術語標注看作自動術語提取的前驅任務,如果可以成功識別并標記目標領域文本中的術語,那么只要將這些標記好的術語提取出來并進行去重操作就可以得到相應的術語條目列表,從而實現術語提取的目的。這里之所以對自動術語提取和自動術語標注區別對待,除了自動術語標注可以作為術語提取的實現技術之外,更為重要的是,從專業文本機器理解這個更為一般的角度出發,自動術語標注更具基礎意義,在許多專業文本的機器理解任務中,更加需要語例層級的術語標注處理,因此自動術語標注技術除可以用以支持術語提取外,也是專業文本機器理解的基礎技術。

  2術語的組成和統計特性

  要想利用計算機自動標注或提取目標領域文本中的術語,就需要研究和總結術語在組成和分布方面的形式特征。作為一種特殊的語言表達,術語有著與普通詞語和短語不同的區別性特征。從術語的組成來看,術語通常由一個或多個單詞組成。

  由一個單詞組成的術語通常稱作簡單術語(simpleterm)或單詞術語(single-wordterm),由不止一個單詞組成的術語通常稱作復雜術語(complexterm)或多詞術語(multi-wordterm)。僅從組成單詞的數量上看,術語與普通短語并沒有區別。但術語與普通短語具有性質上的差異,術語是指稱領域概念的,所指通常固定明確。即便是復雜術語,本質上仍是詞匯層面的語言單位[3]。術語與普通短語在性質上的不同決定了術語必然具有不同于普通短語的特殊組成模式和特殊統計特性。

  (1)從語言學角度看,術語大多是名詞或者名詞短語,這是由術語是對概念的指稱這一特點決定的。例如,根據文獻[3]對四個領域術語的抽樣調查,名詞短語在英語術語中所占比例很高,在所調查的四個領域中比例介于92.5%和99.0%之間。

  (2)術語意義一般不是其組成單詞意義的簡單疊加,在使用中,變化有限。不具有一般短語所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現象[3]。術語形式變化,通常會導致所指的變化,也會造成歧義,所以同一術語在使用中形式基本不發生變化。(3)術語組成模式相對有限。例如,根據文獻[3]對四個領域中多詞術語的調查,僅由名詞、形容詞和介詞組成的名詞短語型術語占比在99%以上,僅由名詞和形容詞組成的名詞短語型術語占比可達97%。

  (4)在目標領域文本中,術語通常具有較高的出現頻率。而且與普通短語不同,術語在領域文本和一般文本中有較大的分布差異,集中出現在所屬領域的文本中,而在其他領域文本中則較少出現。

  (5)復雜術語的組成單詞之間結合緊密穩定,形成領域文本中的特有固定搭配。從統計學的角度看,復雜術語各組件的共現頻度通常會顯著超過一般預期。

  (6)在專業文本中,術語的上下文語境也有一定封閉性,尤其是與術語共現的實詞往往因領域不同而不同。術語的組成和統計特性是利用計算機識別和提取術語的主要依據,大多數術語自動提取方法是根據和利用上述術語特點而設計的。例如,利用術語的語言學特點,將目標領域文本中符合特定模式的名詞短語視作潛在的術語候選,或者利用術語的統計特性設計不同的度量指標衡量單詞和多詞組合作為術語的可能性。

  3單元度和術語度

  從計算機的角度出發,目標領域文本中任何一個單詞或者連續幾個單詞的組合都有成為術語的可能。在本文中,我們把目標領域文本中任意一個由n個單詞組成的連續片段稱作n元組(n≥1)。

  理論上,任何一個長度小于術語最大長度的n元組都有成為術語的可能,我們把這些n元組稱作術語候選(termcandidate),計算機需要逐一評價這些術語候選,計算它們作為術語的可能性。衡量一個n元組是否構成術語通常被歸結為計算兩個指標的問題,即計算單元度和術語度[4]的問題。單元度(unithood)是針對復雜術語而言的,一個包含多個單詞的n元組要成為一個術語,前提是它們需要構成一個固定搭配,組成單詞間需要結合緊密并整體構成一個語言單位。

  單元度就是衡量一個多詞n元組中詞與詞之間關聯強度的指標。但組合緊密穩定的多詞組合未必就是術語,術語需要具有領域性,術語度(termhood)就是用來衡量一個n元組與特定領域關聯程度的度量指標。因此,對于目標領域文本中的某個n元組是否構成術語,可以分別計算該n元組的單元度和術語度分值,如果單元度和術語度得分都高的話,那么這個n元組很可能是一個術語。多年來,研究人員先后設計和使用了很多計算單元度和術語度的具體方法,這些方法形式各不相同,但原理上都是利用術語的形式和分布特點。

  3.1單元度計算

  常見的單元度計算方法包括t值、χ2值、對數似然比、點式互信息、Dice系數等多種方法。一一羅列和介紹這些方法并無必要,我們這里只介紹其中兩個計算指標,分別是點式互信息和t值。選擇這兩個指標,主要是因為點式互信息比較常見,而t值可以作為一類方法的代表。假設-檢驗法采用一種類似反證法的邏輯來論證n元組組成單詞之間結合是否緊密。

  首先假定原假設成立,那么基于原假設,可根據統計學知識推斷該n元組在目標領域文本中應該具有的統計特性,然后與目標領域文本中觀察到的真實統計特性做比對,如果推斷得到的統計特性和真實統計特性有較大差異,以至于大到在假定原假設成立的前提下不大可能發生的程度,那么我們就可以有較大的信心確定作為推斷基礎的原假設不成立,而轉向承認認為單詞間結合穩定緊密的備擇假設成立;反過來,如果根據原假設推斷得到的統計特性和真實統計特性差異較小,在原假設成立的前提下發生的概率很大,那此時就需要承認認為單詞之間結合不緊密的原假設。

  不同的假設-檢驗方法對數據分布和差異度量有不同的規定,但道理基本一樣。在利用假設-檢驗方法計算單元度時,通常并不完整使用假設-檢驗的完整流程,而只關心統計特性的差異值,差異值越大,則認為單詞間結合越緊密,t值就是一種這樣的差異值。

  3.2術語度計算

  術語度計算術語候選和領域的關聯程度。術語度計算的出發點依然是充分利用術語的統計特性。術語具有領域分布不平衡的特點,在計算術語度時要利用這一特點,單純使用目標領域文本是不夠的,需要引入目標領域文本之外的其他領域文本或不具備領域色彩的普通文本作為比對參照,這樣的文本稱作參照文本(referencetext)。

  4術語提取的一般流程

  提取術語候選的目的是從目標領域文本中選擇可能是術語的單詞或者多詞組合,這些選擇出的單詞或者多詞組合未必是術語,它們是否為術語需要交給后續階段進一步評估。從這一階段的目的和在整個提取流程中的作用來看,理想的結果應該是既不漏掉真正的術語也不應該生成太多的術語候選。生成太多的術語候選會增加第二階段的工作負擔,降低效率,但漏掉真正術語會影響術語提取任務的準確率,造成提取質量下降。

  引入語言學知識,如前文所述,多詞術語絕大多數由名詞、形容詞按照一定的模式構成,可以利用預定義的詞類模式對術語候選進行過濾篩選,如可把能與第2節中正則表達式成功匹配的n元組作為術語候選。這種策略是一種常見的將語言學知識引入術語提取過程中的做法。不過,由于模式匹配建立在詞類模式的基礎上,需要事先對目標領域文本進行詞類標注處理,由于現有詞類標注程序并不完美,存在錯誤標注的情況,也會對術語候選生成產生一定的影響。

  鑒于術語多為名詞短語,也有研究限定只處理名詞短語,規定術語候選需要是名詞短語。這會對目標領域文本處理提出更高的要求,需要對目標領域文本進行句法或者名詞組塊分析處理。同樣自動句法或組塊分析的效果也會對術語候選質量產生影響。

  5自動術語標注和機器學習

  在本文第1節,我們對自動術語提取和自動術語標注兩個任務進行了區分,也指出自動術語標注可作為自動術語提取的實現技術。例如,對于下面的文本片段:進行詞法分析的程序或者函數叫作詞法分析器自動術語標注的結果是:進行[詞法分析]的[程序]或者[函數]叫作[詞法分析器]自動術語標注程序需要把文本中的術語實例標記出來(方括號括起來的部分)。經過自動術語標注處理目標領域文本,其中出現的術語實例均已明確標記,提取匯集這些術語即可實現術語提取的目的。例如,根據標注結果,從上面的例子中,可以提取得到“程序”“詞法分析”“詞法分析器”和“函數”四個術語條目。

  6自動術語提取與標注的評價

  與其他很多研究一樣,方法的好和壞、改進方向、應用意義都需要通過評價來體現和基于評價來做出判斷,自動術語提取研究也不例外。與很多自然語言處理任務評價類似,在自動術語標注和提取任務中,最常用的評價指標是F值。測試術語提取系統的性能,需要引入目標領域的測試文本。對于給定目標語料測試文本,其中包含的術語條目理論上是確定的,如果由領域專家把這些術語條目提取出來,就可以作為自動方法評判的標準答案。通過比對術語提取系統返回的術語條目和標準答案,會有三種情況出現:

  (1)正確提取,也就是在標準答案中的術語被術語提取系統正確提取的情況。這里用nA代表術語自動提取系統正確提取的術語的數量。(2)漏提,也就是正確答案中有但未能被術語提取系統提取的情況。這里用nB代表被術語自動提取系統漏提的術語的數量。(3)錯提,也就是不是術語但被自動術語提取系統誤認作術語的情況。這里用nC代表自動提取結果中這種被錯認的術語數量。

  基于上述三種不同情況和對應的統計數據,可以分別定義精確率(precision)和召回率(recall)兩個評價指標。其中精確率用來評判自動提取系統提取結果的準確程度。

  7結語

  自動術語提取研究取得了不少進展,但距離人們的期望還有不小的差距。這表現在,現有術語提取結果中存在大量的噪聲,人工核校剔除需要花費大量成本;術語漏提現象也普遍存在,尤其是現有術語提取技術大多基于統計技術,限于長尾效應,一些低頻術語很難被識別和提取。

  如何減少噪聲和漏提現象仍是術語提取研究要解決的核心問題。從方法層面而言,形成了基于術語評分統計量的提取策略和基于機器學習的術語標注策略兩大類方法。基于術語評分統計量的辦法無需大規模術語標注語料庫,因而得到了較多的關注和研究。基于機器學習的術語標注技術由于需要大規模術語標注語料庫,限于缺乏這樣的標注數據,效果和潛力仍未充分體現。

  尤其值得指出的是,近年來深度學習技術在自然語言處理的許多任務中有突出表現,但在自動術語提取和標注任務上的深入探索仍不多見。在基于深度學習技術的自動術語提取和標注研究中,至少有兩個方面值得進一步關注:一是許多神經網絡架構已被證實在自然語言處理的許多任務中可以帶來效果提升,諸如CNN、LSTM、Transformer等,這些模型可為術語提取技術帶來何種影響需要實踐驗證,研究人員也需要在此基礎上探索并提出適于自動術語提取問題的新型模型架構;二是大規模預訓練語言模型發展如火如荼,BERT、GPT、XLNet、T5等眾多大規模預訓練語言模型在許多自然語言處理任務中的價值已得到證實,但在自動術語提取方面的價值仍有待探索和關注。

  術語提取和標注主流技術仍是數據驅動的技術,術語標注資源的建設至關重要。但術語標注語料構建耗時費力,在這種情況下,有效利用遠程指導等弱指導技術和有效應對遠程指導技術的噪聲問題值得研究和探索。術語標注資源的建設還有利于形成統一基準評測語料,為準確有效評價不同術語提取或標注方法提供基礎資源,有利于術語提取和標注技術的持續發展。隨著科學技術的進步,新術語層出不窮,從術語整理和審定的角度看,新術語提取效果更具應用價值,如何在方法、評價層面考慮新術語提取能力也是有待關注的問題。

  參考文獻:

  [1]語言學名詞審定委員會.語言學名詞[M].北京:商務印書館,2011.

  [2]CABRCASTELLVMT,BAGOTRE,PALATRESIJV.Automatictermdetection:areviewofcurrentsystems[M]//BOURIGAULTD,JACQUEMINC,L’HOMMEM-C.RecentAdvancesinComputationalTerminology.Amsterdam:JohnBenjaminsPublishingCompany,2001:53-88.

  [3]JUSTESONJ,KATZS.TechnicalTerminology:SomeLinguisticPropertiesandanAlgorithmforIdentificationinText[J].NaturalLanguageEngineering,1995,1(1):9-27.

  [4]KYOK,BINU.Methodsofautomatictermrecognition:areview[J].Terminology,1996,3(2):1-23.

  作者:常寶寶

主站蜘蛛池模板: 亚洲第一色站 | 国产777| 国内真实实拍伦视频在线观看 | 香蕉视频色板 | 亚洲欧美日韩精品久久久 | 国产又黄又爽又色视频影视网免费 | 亚洲高清国产拍精品影院 | 亚洲福利精品一区二区三区 | 青青草国产青春综合久久 | 精品女同一区二区三区免费站 | 韩国一大片a毛片女同 | 综合欧美一区二区三区 | 精品久久国产 | 污污的网站免费观看 | 免费观看很黄很色的大片 | 国产毛片网 | 欧美三级在线免费观看 | 国产精品国产三级国产专区不 | 国产一区二区在线视频播放 | 久久精品国产99久久无毒不卡 | 黄色特级一级片 | 久久www免费人成精品 | 182午夜视频 | 伊人久久成人成综合网222 | 小视频在线免费观看 | 成人国产精品毛片 | 中国一级黄色毛片 | 有一婷婷色 | heyzo国产亚洲高清 | 精品视频免费 | 色综合图片| 亚洲夂夂婷婷色拍ww47 | 日本黄色美女视频 | 日韩岛国片| 亚洲中字幕永久在线观看 | 国产影片在线观看 | 欧美精品国产第一区二区 | 久久麻豆亚洲精品 | 精品欧美一区二区三区免费观看 | 日韩中文字幕视频在线观看 | 小馒头刚发育在线播放free |