時間:2021年02月08日 分類:電子論文 次數(shù):
摘 要 隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,知識圖譜以其豐富的語義表達(dá)和推理給公安情報業(yè)務(wù)帶來深刻的變革。本文梳理了知識圖譜和犯罪情報的基本概念和特點,進(jìn)而闡述基于知識圖譜的犯罪情報圖譜的構(gòu)建流程和推理技術(shù),介紹相關(guān)技術(shù)的重點難點及存在的問題,給出后續(xù)發(fā)展的方向。文本旨在為構(gòu)建犯罪情報圖譜提供整體思路,為犯罪情報圖譜的各環(huán)節(jié)提供現(xiàn)有的可行技術(shù),為犯罪情報圖譜的實現(xiàn)和應(yīng)用提供有益的借鑒。
關(guān)鍵詞 知識圖譜 情報分析 犯罪情報 犯罪情報圖譜
現(xiàn)今信息技術(shù)日新月異,信息呈爆炸式增長,如何快速實現(xiàn)犯罪情報的要素提取、組織、和分析,輔助偵查是公安大數(shù)據(jù)和智慧警務(wù)的發(fā)展方向。知識圖譜作為一種刻畫大規(guī)模數(shù)據(jù)關(guān)聯(lián)的利器,在犯罪情報分析應(yīng)用中價值極大。
一、知識圖譜概述
(一)知識圖譜表示與建模知識圖譜源于語義網(wǎng)絡(luò),由Google公司于2012年提出,采用圖模型對現(xiàn)實世界的事物及關(guān)聯(lián)建模。知識圖譜將實體及關(guān)系表示為三元組G=(ε,R,ξ),ε表示實體集合,R表示實體關(guān)系的集合,ξ=R×ε×ε表示圖譜三元組集合[1]。
三元組的表示規(guī)范主要有資源描述框架(ResourceDescriptionFramework,RDF)、RDFs(RDFSchema)和網(wǎng)絡(luò)本體語言(WebOntologyLanguage,OWL)。RDF是W3C提出用于描述實體的標(biāo)準(zhǔn),對每個資源使用統(tǒng)一資源標(biāo)識符(URI)標(biāo)識,以網(wǎng)絡(luò)形式連接各實體,可用多個三元組表示復(fù)雜語義,但最多僅能表述二元謂詞,表示能力有限。RDFs是描述RDF的輕量級語言,增加對實體的類和屬性描述,可描述實體和屬性的關(guān)系。OWL基于XML和RDF/RDFs采用含頭部和主體的二元結(jié)構(gòu)。頭部存儲命名空間,主體則描述本體的類別、實例和屬性間的關(guān)聯(lián)。OWL還提供類、屬性和實例的等價、互逆、對稱等聲明,表達(dá)能力更強(qiáng),是W3C表示本體的推薦語言。
(二)知識圖譜的應(yīng)用
1.優(yōu)化搜索引擎知識圖譜最早應(yīng)用于提升搜索引擎的能力。傳統(tǒng)搜索引擎通過關(guān)鍵字實現(xiàn)網(wǎng)頁搜,無法有效應(yīng)對具有歧義的檢索。知識圖譜利用其強(qiáng)大的實體概念表述能力,能夠利用數(shù)據(jù)的語義較為準(zhǔn)確識別用戶的需求,提高了用戶搜索的準(zhǔn)確性,成為新一代智能搜索引擎的強(qiáng)大動力。
2.突破智能問答瓶頸在自動問答方面,知識圖譜基于關(guān)聯(lián)關(guān)系,實現(xiàn)自然語言的語義結(jié)構(gòu)化,可提高自動問答系統(tǒng)的智能化和精確性。目前,智能問題系統(tǒng)能較好應(yīng)對事實性單點問題,效果接近真人。結(jié)合知識圖譜和機(jī)器學(xué)習(xí)的智能問答系統(tǒng)可提高對問題的語義理解,增強(qiáng)對詞組合問題的探索[2]。
3.實現(xiàn)機(jī)器推理
結(jié)合邏輯謂詞和圖搜索等技術(shù),知識圖譜可完成基于關(guān)系邏輯的硬邏輯規(guī)則提取,完成精確型問題的機(jī)器推理工作,符合人類的推理邏輯,結(jié)果的可解釋性最好[3]。將機(jī)器學(xué)習(xí)與知識圖譜結(jié)合,把圖譜映射為神經(jīng)網(wǎng)絡(luò),通過優(yōu)化算法提取實體鄰接關(guān)系,實現(xiàn)圖譜的多步推理[4]。
4.增強(qiáng)推薦系統(tǒng)
面對海量電商信息,知識圖譜可增強(qiáng)商品與用戶的信息語義關(guān)聯(lián),解決系統(tǒng)冷啟動問題,增強(qiáng)商品推薦效果。Trans系列[5]嵌入法可獲得實體和關(guān)系的低維稠密向量,進(jìn)而確定實體的相似性以實現(xiàn)推薦。不同類別實體或關(guān)系構(gòu)成的異質(zhì)知識圖譜使用圖卷積網(wǎng)絡(luò)可取得較好效果[6]。基于元路徑的挖掘方法也可用于異質(zhì)圖譜推薦,利用路徑相似性獲得物品和用戶的偏好特征,通過特征向量點積的加權(quán)累積進(jìn)行推薦[7]。文獻(xiàn)[8]使用元圖替代元路徑對異質(zhì)網(wǎng)絡(luò)進(jìn)行特征提取,更全面展示其中的復(fù)雜特征,提升推薦效果。
二、犯罪情報
(一)犯罪情報的類型
犯罪情報按來源可分為境內(nèi)和境外情報。境內(nèi)情報是從國內(nèi)獲取的犯罪情報;境外情報則通過各種方式從國外或境外獲取的犯罪情報。犯罪情報按其地位分為戰(zhàn)略情報和戰(zhàn)術(shù)情報。戰(zhàn)略情報是指對犯罪偵查工作具有重大影響的情報,而戰(zhàn)術(shù)情報是指感知片面情況或局部情況的情報。在載體方面,犯罪情報可分為文字情報、聲像情報和實物情報。從內(nèi)容角度,犯罪情報分為人員、案件和犯罪組織情報等。犯罪情報屬性分為線索型、資料型和預(yù)測型情報三類。線索型情報為犯罪偵查提供引導(dǎo)信息,資料型情報為犯罪偵查提供基礎(chǔ)信息,預(yù)測型情報則指用于預(yù)測犯罪活動在特定時空范圍內(nèi)演變趨勢。近年來,開源情報作為新情報源已嶄露頭角。
(二)犯罪情報的特點
犯罪情報具有知識性、有序性、傳遞性和實用性等基本屬性。知識性表明情報是偵查人員對客觀犯罪活動的認(rèn)知。有序性是指犯罪情報處理需要一個漸進(jìn)的加工過程。傳遞性是指犯罪情報必須在進(jìn)行傳遞才能發(fā)揮價值。實用性則表明犯罪情報必須服務(wù)實戰(zhàn)。犯罪情報的特性表現(xiàn)為社會性、累積性、時效性、隨機(jī)性和秘密性等。犯罪活動是人類的行為,社會性是其與生俱來的天性。犯罪情報的價值只有積累到一定規(guī)模才能發(fā)揮作用。犯罪情報的實時性是捕捉戰(zhàn)機(jī)的關(guān)鍵。隨機(jī)性表明單條犯罪情報僅能反映特定犯罪活動在某個時空截面的情況。秘密性是指犯罪情報僅能以隱蔽方式在特定范圍獲取、傳遞和運(yùn)用。
三、犯罪情報的知識圖譜構(gòu)建及運(yùn)用
(一)基于知識圖譜的犯罪情報圖譜構(gòu)建
1.涉案實體識別
實體識別是犯罪圖譜的基礎(chǔ),旨在從情報中抽取實體。實體識別的對象分為實體、時間和數(shù)字三大類,細(xì)分為人名、機(jī)構(gòu)名、地名、時間、日期、貨幣、交通工具和武器等。實體識別分人工識別和自動識別。人工識別相對準(zhǔn)確,但效率低,僅適用少量樣本的處理。自動識別分為兩大類:基于規(guī)則的實體識別和基于機(jī)器學(xué)習(xí)的實體識別,機(jī)器學(xué)習(xí)識別又分為基于特征和基于神經(jīng)網(wǎng)絡(luò)。基于規(guī)則的方法適用于英文環(huán)境,國外早期系統(tǒng)均采用此法。基于詞典方法依靠匹配規(guī)則簡單有效,對中文支持較好,但構(gòu)建詞典耗時耗力[9]。
機(jī)器學(xué)習(xí)方法則利用已標(biāo)注的語料庫訓(xùn)練模型,獲得特定字或詞作為命名實體整體或部分的概率,常用方法有基于上下文[10]和基于序列化標(biāo)注[11]等。其后,基于LSTMCRF[12]的深度學(xué)習(xí)被用于實體識別。由于任務(wù)和需求不同,實體識別的粒度也不同。實體識別粒度越小則難度和開銷越大,但指導(dǎo)意義更大。當(dāng)前,困擾實體識別的要素包括實體命名形式多變、語言環(huán)境復(fù)雜和實體存在歧義等。
2.實體消歧
由于形式和語義復(fù)雜,實體識別后需進(jìn)行一致性校驗,即實體消歧。其原因在于:同一實體可能有不同的稱謂,同一名稱在上下文中可能表示不同的實體。消歧的一般方法為有監(jiān)督的機(jī)器學(xué)習(xí)[13]。分類方法通過構(gòu)建正負(fù)實例、指稱-實體對等形式通過有監(jiān)督方式進(jìn)行學(xué)習(xí),獲取二元分類模型以實現(xiàn)實體消歧。機(jī)器學(xué)習(xí)排序方法分三類,PointWise使用近似回歸模型計算候選匹配實體的得分并排序,得分越高則越傾向為同一實體。
PairWise將候選項匹配成對,利用項與項間的相對位置關(guān)系構(gòu)建訓(xùn)練樣本,采用分類方法訓(xùn)練排序感知機(jī)實現(xiàn)消歧;ListWise則將査詢結(jié)果排序列表視為訓(xùn)練實例,利用ListNet算法訓(xùn)練排序模型進(jìn)行消歧。基于圖的方法將情報中的實體指稱及其候選實體構(gòu)成圖結(jié)構(gòu),利用兩者的關(guān)聯(lián)完成協(xié)同消歧[14]。混合模型綜合運(yùn)用多種模型獲得各自消歧結(jié)果,最后通過比較得到最優(yōu)結(jié)果,效果好于單模型。實體消歧過程要避免實體的遺漏和流失,以免情報失真。
3.實體關(guān)聯(lián)提取
實體關(guān)聯(lián)是構(gòu)建犯罪知識圖譜的核心環(huán)節(jié),將情報信息從語言層面上升到內(nèi)容層面。在犯罪情報方面,實體關(guān)系主要體現(xiàn)人(組織)、物或事為中心的兩方或多方關(guān)聯(lián),需要時還可加入時間或地點。其難點在于同一關(guān)系表述不同、關(guān)系涉及實體多、同一詞匯表達(dá)不同關(guān)系和存在隱性關(guān)聯(lián)等。基于模板的方法是關(guān)系抽取的傳統(tǒng)方法,根據(jù)實體指稱的上下文關(guān)系參照模板提取關(guān)系[15]。
基于機(jī)器學(xué)習(xí)的方法分為有監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí)方法通過分類算法學(xué)習(xí)人工標(biāo)注的實體指稱關(guān)聯(lián)樣本進(jìn)行模型訓(xùn)練,形成語義關(guān)系分類器用于關(guān)系提取[16]。基于弱監(jiān)督學(xué)習(xí)方法以距離監(jiān)督為假設(shè),對人工標(biāo)注的部分圖譜三元組樣本進(jìn)行學(xué)習(xí)以形成分類器,進(jìn)而自動完成其他內(nèi)容的關(guān)系抽取[17]。Hasegawa等提出基于無監(jiān)督技術(shù)的關(guān)系抽取,按實體特征進(jìn)行全連通聚類,通過關(guān)系相似性確定實體關(guān)系的類型[18]。視頻、圖片、語言等類型的情報信息進(jìn)行關(guān)系抽取將是今后的發(fā)展方向。
(二)基于知識圖譜的犯罪情報分析與挖掘當(dāng)前的“情報主導(dǎo)警務(wù)”強(qiáng)調(diào)情報對警務(wù)活動的指導(dǎo),要求警方有效融合情報,全面深入挖掘情報內(nèi)涵,知識圖譜正好滿足需求。
1.基于圖譜的犯罪信息搜索
傳統(tǒng)的信息檢索通過關(guān)鍵字匹配方式完成查找,未考慮關(guān)鍵字的語義和上下文關(guān)系,檢索質(zhì)量不高。基于知識圖譜的實體檢索同時考慮語義相似性和結(jié)構(gòu)相似性,計算每個實體相關(guān)的三元組與用戶查詢之間的相關(guān)度,排序后得到候選實體[19]。此外,知識圖譜作為一種存在邏輯結(jié)構(gòu)的有向連通圖,可通過圖模型進(jìn)行建模檢索,用檢索對象的特征建立子圖并構(gòu)建圖譜的圖索引[20],通過子圖篩選技術(shù)實現(xiàn)犯罪信息檢索。
當(dāng)檢索目標(biāo)較復(fù)雜時可綜合多個圖譜進(jìn)行搜索,基于圖譜的問答技術(shù)用于提高搜索效果[21]。基于詞典-文法的語義解析方法通過分析問句,構(gòu)建由節(jié)點、邊和操作符組成的語義圖,視其為圖譜子圖并映射到圖譜中,通過圖匹配完成檢索[22]。目前,基于知識圖譜的簡單問題檢索基本成熟,但深層挖掘問題、大規(guī)模搜索和長尾問題等仍待研究。
2.基于圖譜的案件推理
知識圖譜的結(jié)構(gòu)化形式是其強(qiáng)于數(shù)據(jù)庫的最大優(yōu)勢,支持信息推理,可用于情報的補(bǔ)齊、質(zhì)檢和挖掘,輔助研判。知識圖譜推理著眼實體和關(guān)系,進(jìn)行演繹推理和基于歸納的推理,由已有信息推斷未知信息。歸納推理用于推理具體事實,利用邏輯規(guī)則獲得某個事件的過程;演繹推理則著重提取知識圖譜中的邏輯規(guī)則。演繹推理包括基于謂詞邏輯的關(guān)系推理[23]、基于概率邏輯的規(guī)則提取[24]和基于隨機(jī)游走的規(guī)則挖掘[25]等。歸納推理包括基于置信規(guī)則推理的關(guān)系預(yù)測[26],基于路徑的關(guān)系推理[27]等。知識圖譜推理技術(shù)可輔助事件規(guī)律挖掘、人員畫像構(gòu)建、特定群體發(fā)現(xiàn)、人物關(guān)系梳理等犯罪情報分析。
情報論文投稿刊物:《圖書與情報》始刊于1981年,由甘肅省圖書館、甘肅省科技情報研究所聯(lián)合主辦。自創(chuàng)刊以來一直以學(xué)術(shù)質(zhì)量建設(shè)為核心,關(guān)注圖情業(yè)界的最新學(xué)術(shù)熱點與動態(tài),注重刊發(fā)理論與實踐相結(jié)合、國內(nèi)與國外相融匯的科研學(xué)術(shù)成果,是一份圖情界非常有影響的兩棲類學(xué)術(shù)刊物。
四、結(jié)語
本文概述知識圖譜和犯罪情報的相關(guān)概念和特點,介紹犯罪情報圖譜的構(gòu)建步驟和方法,梳理存在的問題和發(fā)展方向,為相關(guān)研究提供思路。在大數(shù)據(jù)和人工智能等新興技術(shù)不斷發(fā)展的今天,犯罪情報圖譜賦能公安機(jī)關(guān)占據(jù)信息制高點,對維護(hù)國家安全和公共安全具有重要作用,是我國構(gòu)建治理體系和治理能力現(xiàn)代化的重要抓手,在公安情報工作中大有作為。
參考文獻(xiàn):
[1] 趙軍,劉康,何世柱,等.知識圖譜[M].北京:高等教育出版社,2018:2-5.
作者:張美璟