時間:2021年07月27日 分類:推薦論文 次數:
摘要:目的意義針對當前數字圖書館科技文獻現有推薦方法中存在的語義缺失、情境缺失及潛在偏好挖掘不足等問題,提出基于科研人員情境化主題偏好的科技文獻協同推薦方法。方法過程首先基于情境感知技術識別科研人員情境信息,其次引入文本語義技術LDA主題模型挖掘科研人員的初始情境化主題偏好,繼而根據科研人員情境的相似度與協同過濾思想擴展科研人員的情境化主題偏好,最后基于融合后的科研情境化偏好構建滿足科研人員情境化需求的科技文獻推薦列表。結果結論實驗結果表明,文章提出的基于科研人員情境化主題偏好的用戶模型,能夠較好地預測科研人員偏好,推薦效果更佳。
關鍵詞:科研情境;情境化偏好;主題模型;科技文獻;協同推薦
引言
在互聯網時代的今天,每日有海量的科技文獻被公開發表,知識庫中的資源呈爆炸式激增,科研人員面臨日益嚴重的“文獻資源過載”問題。針對這一問題,有學者提出了“以用戶為中心”的科技文獻推薦服務,根據目標科研人員訪問科技文獻的歷史行為信息,分析其興趣偏好,從而主動推送其可能感興趣的科技文獻,以解決當前資源激增所引發的文獻篩選難的問題。傳統的個性化推薦方法,通;谟脩艚诤瓦h期的歷史行為數據,結合興趣衰減算法,提取出科研人員的長短期偏好模式。
然而,該方法存在以下不足:過早的行為數據可能成為噪聲,生成的推薦結果無法滿足科研人員的情境化需求;同時,其中弱相關性的信息會影響科研人員偏好特征提取的質量,導致推薦效果不佳。對此,需要以科研人員所處的情境為中心,通過分析和挖掘其情境化偏好,研究更為智能的科技文獻推薦方法,進一步提升數字圖書館知識服務平臺的個性化服務水平。
目前,眾多國內外學者在情境化推薦方面展開研究,從多個角度提出了融合情境的推薦模型與方法。傳統的情境化資源推薦研究模式大多通過構建情境模型,且模型可實現高級推理,利用規則匹配或推理規則對資源進行篩選過濾。基于知識表示和知識建模的情境化資源推薦方法雖然能夠利用領域知識特征生成可解釋性較高的推薦結果,且幾乎不受用戶評分的影響,但存在知識獲取難度大、模型求解復雜度高、不利于全樣本的預測等問題。
對此,機器學習、人工智能等技術的興起,為情境化資源推薦研究模式的轉變提供了新的思路。以機器學習和數據挖掘為基礎的情境化資源推薦方法,是一種高效且高質量的資源過濾工具,通過分析和挖掘用戶的情境信息、歷史行為數據,學習和預測用戶的情境化偏好,進而為用戶推送滿足其情境需求的資源;跈C器學習和數據挖掘方法的情境化資源推薦技術主要分為兩類:①基于協同過濾的情境化資源推薦,將情境信息融入到用戶相似度計算、資源相似度計算及模型計算過程中,以提高推薦的精準度[710。該方法盡管在電子商務、電影音樂等領域有廣泛的應用,且能夠挖掘出用戶的潛在偏好。
但缺點在于:基于協同過濾的情境化推薦不考慮資源本身的特性,僅利用用戶的打分評價等信息生成推薦結果。而數字圖書館科技文獻服務中,缺乏用戶的評分及評價等反饋信息;同時,科技文獻內部蘊含了大量的語義信息,對文本語義的細粒度挖掘和表示在資源推薦中至關重要,不應棄之不顧。②基于內容的情境化資源推薦,通過分析用戶在不同情境要素下對資源的偏好程度,找到用戶、情境、資源之間的關聯概率,然后根據用戶所處的情境和資源屬性向其推薦相似度較高的資源1115。
與基于協同過濾的情境化資源推薦方法相比,該方法不存在資源冷啟動、數據稀疏等問題,并充分考慮到科技文獻的特點,能夠精準描述用戶的情境化偏好,因而受到學者的廣泛關注。但是,由于該方法一般只依賴于用戶自身以往的情境化偏好進行推薦[11,難以挖掘用戶的潛在偏好,導致推薦結果的多樣性不足。為此,可以充分利用協同推薦思想,將具有相似情境的其他科研人員訪問過的科技文獻推薦給相關科研人員,從而進一步豐富推薦列表的多樣性,解決由于個人知識局限引起的推薦列表單一性問題,協助科研人員在海量信息資源中獲取有針對性的高質量文獻。因此,研究融合情境的科技文獻協同推薦同樣具有重要意義和應用前景。
為此,本文定義了科研情境用以區別科研人員在不同科學研究過程中的個性化特征,在基于內容的情境化資源推薦框架下,采用改進的LDA主題模型挖掘科研人員的初始情境化主題偏好,而后基于科研情境相似度和協同推薦思想擴展科研人員的情境化主題偏好;最終精準定位科研人員的情境化需求,為實現個性化、情境化、多樣化的科技文獻推薦服務奠定基礎。
1一種基于科研人員情境化主題偏好的科技文獻協同推薦方法
情境化資源推薦過程主要包括情境信息獲取、情境數據建模、情境化用戶偏好提取、資源推薦。本文按照該框架,給出一種基于科研人員情境化主題偏好的科技文獻協同推薦方法,包括科研人員情境信息識別與表示、科研人員初始情境化主題偏好提取、科研人員情境化主題偏好擴展、情境化推薦列表生成四個階段。
1)科研人員情境信息識別與建模。首先給出刻畫科研人員訪問科技文獻過程中個性化特征的各個情境要素,以此構建一個通用的科研情境模型;然后依據上述情境模型所確立的維度,從基本信息、任務信息、物理信息三個方面識別感知目標科研人員所處的情境。2)科研人員初始情境化主題偏好生成。以科研人員的情境信息、行為數據和訪問過的科技文獻內容為基礎,利用改進詞權重的LDA主題模型挖掘科技文獻的內部語義特征,以表征科研人員的情境化主題偏好。
3)科研人員情境化主題偏好擴展。采用基于主情境模型樹的評估方法篩選出情境相似度較高的科研人員,作為目標科研人員的近鄰用戶集,然后基于用戶的協同過濾思想擴展目標科研人員的情境化主題偏好,將二者按照一定的規則融合,得到合并后的科研人員情境化主題偏好。4)情境化推薦列表生成。在得到科研人員情境化主題偏好的基礎上,采用JensenShannon距離公式進行與候選文獻集合的相似度計算,并依據TOP進行科技文獻推薦。
1.1科研情境識別與建模
科研人員情境信息的精準識別,是實現情境化資源推薦服務的第一步。本節需要解決的問題有兩個:①針對當前推薦服務,確定需要識別的情境類別。②采取有效的識別感知方式獲取所需的情境信息。對此,首先給出了刻畫科研人員訪問科技文獻過程中個性化特征的各個情境要素,以此構建了一個通用的科研情境模型;然后依據上述情境模型所確立的四個維度,結合具體的情境要素感知識別方法獲取科研人員所處的情境。
1.1.1科研情境分析與建模
1)科研情境分析。
科研情境是指科研人員在訪問科技文獻過程中,用來刻畫其個性化特征的信息17],是包括科研人員具有的知識結構、身份角色等內在因素及科研人員所處的時間、地點、工作任務、社會環境等外部因素的集合。研究發現,科研人員對科技文獻的訪問需求一般可分為兩種情況:第一種是情境及其偏好在一定時間內相對穩定的用戶,針對此類用戶,結合相關科研人員的歷史偏好及多維度科研情境,利用情境化資源推薦方法進行科技文獻的推薦;第二種是伴隨情境變化,引發偏好發生遷移的用戶,這種情況下通常需要考慮科研人員偏好遷移后產生的新特征,建立情境化用戶偏好模型動態檢測和更新機制,采用系統自適應更新和用戶參與更新技術,并利用情境化資源推薦方法進行科技文獻推薦。
大多情況下,科研人員的研究方向是不變的,其研究任務和研究內容會保持一段時間相對穩定。因此本文的目的是,基于知識應用情境挖掘出科研人員的情境化主題偏好,在科研人員所處情境及其偏好未發生遷移的情況下,提出一種融合情境的科技文獻協同推薦方法。為此,首先需要識別出科研人員特定的歷史情境信息,然后找到該情境下關聯的文獻資源集合。
2)分層多維的科研情境模型構建。
為避免識別獲取的科研情境信息存在冗余和格式不統一問題,進一步實現對情境要素的有效組織和存儲,給出一個通用的科研人員情境表示模型。在綜合權衡用來刻畫科研人員文獻資源訪問過程中個性化特征的各個情境要素及情境信息可識別獲取性的基礎上,確立了四個科研情境維度:用戶基本信息維、任務信息維、物理信息維及操作行為維度。
UB是科研人員基本信息要素的集合,主要包括知識結構、身份角色、科學數據素養能力等。知識結構由科研人員長期從事的研究領域所反映,本文采用王偉等建立的學科主題結構樹18進行確定身份角色是指科研人員在進行科學研究過程時所承擔的角色,分為重要型角色和普通角色。
本研究主要由科研人員的學歷進行確定,一般認為擁有博士學歷的科研人員在團隊擔當重要型角色,碩士及以下學歷的人員在團隊擔當普通角色;科學數據素養能力19是指科研人員在進行科學研究過程中,對數據的收集、處理、評價、利用等能力及其過程中所涉及的思維、知識、技能和倫理規范。主要由數據意識、數據收集與評估、數據組織與管理、數據處理與分析、數據利用與歸檔、數據倫理六個維度的能力要素決定。
UT描述了科研人員在進行科學研究活動過程中所需解決的問題,主要通過任務類型、任務對象、任務檢索詞進行表示。任務類型通常包括文檔撰寫、程序編寫、數據分析和文本閱讀等;任務對象由當前的研究課題所決定;對任務的檢索詞進行識別和采集可以客觀清晰地獲取用戶當前的任務意圖。
UP是指科研人員訪問獲取科技文獻的時間、地點及其使用的設備類型、網絡狀況;設備類型分為計算機設備和手機設備;網絡狀況分為良好和一般。UA是指科研人員訪問科技文獻時的歷史行為集合。包括具體的科技文獻操作對象及其操作行為,如瀏覽、下載、轉發、收藏、評論等類型。
1.1.2科研人員情境感知與識別
為提取科研人員的情境化主題偏好,首先必須根據上述科研情境模型中確立的各個要素維度,識別獲取科研人員所處的情境信息,然后才能依據科研人員在該情境下偏好的文獻集合,構建其情境化主題偏好。因此,本節的重點在于如何識別科研人員的情境信息。
4種不同的要素維度對應于4種不同的情境感知識別方法:
1)科研人員基本信息維度要素識別。通過科研人員在數字圖書館注冊信息階段識別獲取科研人員的知識結構、身份角色、科學數據素養能力等。2)科研人員任務維度要素識別。任務類型及任務對象在數字圖書館注冊信息階段識別獲取;任務關鍵詞通過分析用戶行為事務集進行識別。
3)科研人員物理情境維度要素識別。時間、地點信息通過傳感器感知識別獲取;設備類型、網絡狀況通過相關設備接口進行感知識別。4)科研人員的操作行為維度要素識別。對科技文獻具體的瀏覽、下載、收藏等行為通過分析用戶行為事務集進行識別。通過以上情境信息識別方法,可以得到科研人員的情境信息及偏好數據,為后續科研人員情境化主題偏好的挖掘奠定基礎。
1.2科研人員初始情境化主題偏好生成
1.2.1基于改進LDA的科技文獻主題挖掘
基于LDA的文本主題挖掘模型,可以挖掘出資源內部的潛在語義特征,準確得到文獻包含的主題及各個主題下的關鍵詞及其權重。然而,由于LDA沒有對輸入文本的特征進行處理,通常使生成的主題區分度低、語義特征不明顯且含有大量無意義的詞匯。阮光冊等提出的結合詞權重的主題模型將詞語的局部語義特征考慮在內,有效地改進了主題的語義表現能力。本文將采用阮光冊提出的方法,通過科技文獻特征提取和科技文獻的向量化表示兩個部分,完成對科技文獻的主題挖掘。
1.2.2生成科研人員情境化主題偏好
在生成科研人員初始情境化主題偏好分布時,科研人員的情境化主題偏好計算取決于其歷史行為和科技文獻的主題挖掘方法。通過對科研人員歷史行為的度量,可以使得到的用戶偏好主題更加精確客觀。因此,本文借鑒serLDA的思路[2提出一種帶有行為權值的科研人員情境化主題偏好挖掘方法。
1.3科研人員情境化主題偏好擴展
由于受到科學數據素養能力的影響,通?蒲腥藛T的情境化需求不在其個人歷史知識背景下,這意味著科研人員的情境化需求偏好與其歷史訪問文獻不完全符合。因此需要對科研人員情境化主題偏好進行廣度上的拓展。利用協同過濾直接向目標人員推薦特征詞序列以構建目標科研人員的潛在偏好,是學者們廣泛使用的一種方法。
一方面有助于挖掘科研人員的潛在偏好,另一方面可以緩解傳統協同過濾推薦方法的冷啟動問題。但是該方法未考慮科研人員所面臨的真實情境,導致其需求偏好挖掘不足,相似群體度量誤差較大。針對這一問題,本文嘗試引入科研情境修正用戶相似度,并提出一種基于科研情境相似度的用戶協同推薦方法,通過分析和挖掘具有相同或相似情境下科研人員的歷史偏好,幫助目標科研人員預測其潛在主題需求。
1.3.1基于科研情境的相似群體找尋
為了找到相似群體,首先需要對科研人員所處的情境進行相似度評估。上述內容已經將科研情境要素及其屬性表達為樹狀結構,故而情境相似度的計算便轉換為節點間相似度的計算。潘旭偉等提出的基于主模型樹的相似性評估方法是當前一種比較經典的計算方法,該算法充分考慮了情境屬性類別和模型維度不一致的情況。本文將沿用該方法,完成科研情境相似度的計算。
2實驗
2.1實驗設計
由于文獻資源領域內目前尚未有包含科研情境因素的公開數據集,為驗證本文提出的基于科研人員情境化主題偏好的科技文獻協同推薦方法的有效性,筆者構建簡易的科技文獻服務平臺以采集科研人員的情境信息及其情境化偏好,并邀請某大學位圖書情報及相關專業的科研工作者作為本次實驗研究的對象。要求每位科研人員根據自己所面臨的任務情境,在開發的簡易科技文獻學術平臺進行至少150次的訪問行為,服務器實時監控記錄科研人員的情境信息及檢索、收藏、下載等行為。
為避免科研情境發生偏移,實驗周期設定為一個月,兩周內登錄有效。實驗過程中,首先利用采集到的科研人員情境化偏好信息,并結合本文提出的科技文獻向量化表示方法,生成科研人員的情境化主題偏好分布;其次利用本文提出的相似度算法,計算每一位科研人員對每一篇科技文獻的偏好值,然后將偏好值最高的TOP30TOP40TOP50TOP60TOP70的科技文獻依次推薦給用戶,要求每次推薦后科研人員對其感興趣的文獻進行訪問。
2.2數據來源及實驗環境
本實驗的數據集來源于中國知網數據庫,爬取圖情領域內具有代表性的14種核心期刊(情報學報、情報理論與實踐、情報科學、情報雜志、情報資料工作、中國圖書館學報、大學圖書館學報、國家圖書館學刊、圖書館論壇、圖書館雜志、圖書情報工作、數據分析與知識發現、圖書情報知識、圖書與情報)的9874篇科技文獻作為實驗數據,爬取內容包括:標題、摘要、關鍵詞、作者等信息。隨后將其導入科技文獻服務平臺,用來采集科研人員的情境信息和情境化偏好數據。
2.3實驗過程
實驗過程包括三部分:改進LDA模型的科技文獻主題挖掘;基于科研情境的相似群體找尋;基于改進DA模型的科研人員情境化主題偏好生成。
2.3.1基于改進LDA模型的科技文獻主題挖掘
利用改進詞權重的LDA模型以及向量化處理后的科技文本,既可以實現對科技文獻的主題挖掘,同時也能得到每一位科研人員的情境化主題偏好。本文通過調用Python的sklearn包中的omponents及相關函數實現改進詞權重的DA主題建模工作。
2.3.2相似科研群體找尋
首先,將初步采集的科研情境信息根據圖進行處理,從而獲得所有科研人員的情境取值。為了便于計算,本文對情境要素做了簡化處理,并給出相應的案例,括號內的數值代表科研情境要素的權重,由相關領域專家進行賦權。
2.3.3科研人員情境化偏好主題全面展示
由于要計算每一位科研人員在某特定情境下對每一篇待推薦科技文獻的感興趣程度,在得到每一篇科技文獻的主題—特征詞分布后,還需要得到每一位科研人員的情境化主題偏好分布。
科研圖書館論文投稿刊物:情報科學特別注重追求理論精品,面向行業工作實際,不僅形成了求實創新的學術風格,成為同行之間進行學術研討和業務交流的理想園地,而且也是國內情報學、圖書館學領域影響較大的學術性期刊之一,在國內組織的圖書館學情報學核心期刊評定中名列前茅。同時,在有關專家、學者進行的引文分析中,《情報科學》在許多評價指標,如學科隸屬度、合著規模、平均引文量、引文時間分布、引文半衰期等方面在專業期刊中全文轉載率位于第五位。
3結束語
為進一步提升數字圖書館知識服務平臺的個性化服務水平,從而為科研人員推薦符合其情境需求的科技文獻,本文提出了一種基于科研人員情境化主題偏好的科技文獻協同推薦方法。盡管傳統的基于協同過濾和內容的混合推薦在文獻資源平臺具有很強的適應性,但面對海量的科技文獻數據,如何對其評分、如何界定科研人員的相似度,如何準確描述科研人員的情境化需求是該推薦方法面臨的關鍵問題。
本文為了彌補該方法在科研人員相似度度量及情境化需求挖掘過程中的不足,特引入科研情境修正用戶相似度。同時,本文將提出的基于科研人員情境化主題偏好的科技文獻協同推薦和基于科研人員特征詞序列偏好的科技文獻協同推薦方法在真實數據集上進行對比。實驗結果表明,該方法能夠準確把握用戶偏好,改進用戶體驗。本文提出的基于科研情境化偏好的科技文獻協同推薦方法對數字圖書館知識服務的改善具有一定作用,可以更加精準地挖掘出科研人員的情境化偏好。
本文也存在一些不足之處,①實驗過程中,科研人員的行為數據帶有較大的主觀性,因此上述實驗結果存在一定的誤差。②科研情境要素的權重賦值,直接影響到相似群體的度量。采用文獻系統調研并結合相關專家的建議對情境要素進行賦權存在一定的誤差。③數字圖書館環境下,科研人員的情境及其偏好復雜多變。本文聚焦在科研人員情境化偏好保持穩定的情況,提出的一種科技文獻協同推薦方法。下一步研究中,筆者欲結合信息論中的熵值改進科研情境要素的賦權方法;并深入研討科研人員情境化偏好模型更新的流程與方法,從而解決由于情境轉移所引發的主題偏好遷移問題。
參考文獻
[1]馮永張備,強保華等.MNHDRM:長短興趣多神經網絡混合動態推薦模型J].計算機學報,2019,42(1):1628.
[2]胡芳燚.基于用戶興趣和主題模型的混合推薦算法的研究與實現[D].北京:北京郵電大學,201
[3]王欣,張冬梅.“互聯網+”背景下情境知識集成建模研究[J].情報科學,2017,35(6):3943.
[4]侯力鐵.基于情景感知的移動圖書館個性化推薦服務研究[D].長春:吉林大學,2019.
[5]汪圳,劉成山,秦春秀.基于科研情境的數字圖書館知識推薦研究[J].情報理論與實踐,2018,41(12):139143138.
[6]張亮任亞茹李夢茹等基于團隊科研—知識應用情境匹配的數字圖書館知識推薦方法研究[J].情報雜志,2021,40(2):195200.
作者:李亞梅,秦春秀,馬續補