時間:2022年03月17日 分類:經濟論文 次數:
摘要【目:的/意義】主題發展等級劃分是信息組織研究的基礎性問題,也是科研人員和科研管理部門進行研究選題和學科服務的重要工作,對學科研究主題進行高效的發展等級劃分與趨勢預測,能夠幫助相關科研人員和機構把握學科領域研究態勢,準確做出科研決策。【方法/過程】本文結合主題模型、Sen’s斜率估計法、Mann-Kendall法、指數平滑法,提出一種學科研究主題發展等級劃分與趨勢預測方法。首先,在主題識別的基礎上,形成主題發文度和主題引文度兩個指標,并參考波士頓矩陣對學科研究主題發展等級進行劃分;然后,融合研究主題發文量、被引量和下載量,形成主題熱力度指標,采用指數平滑法對研究主題未來發展態勢進行預測。【結果/結論】以我國“智慧圖書館”研究的實驗表明,本文所提方法能夠對學科領域研究主題進行全方位、細粒度地發展等級劃分和趨勢預測。【創新/局限】本文所提方法對其他學科研究主題的分析具有普適性,為實現動態情報分析提供了新的視角,局限在于需要提高主題建模的可解讀性,并進一步優化趨勢預測方法。
關鍵詞:主題模型;發展等級;趨勢預測;智慧圖書館;科研決策
1引言
信息科技不斷發展,帶動了Web技術在學術數據庫中的創新應用,也進一步推動了科技文獻呈爆炸式增長態勢。當科研人員針對某個學科研究主題進行文獻檢索時,往往能夠獲取期刊論文、科技專利、新聞報告等多元化海量信息。而面對海量文獻資源,如何快速準確地把握學科研究主題的發展等級,為科學研究尋找切入點,成為科研工作者面臨的巨大挑戰。為了應對此問題,部分學者以文獻作為分析單元,通過挖掘學科領域的熱點文獻、權威作者,為學術檢索和科研實踐提供有力支持。但隨著學科研究范式復雜度的提高和學科研究邊界的不斷拓展,已有研究和方法并不能有效滿足科研人員對結果呈現的精深性需求。
由此,本研究提出一種學科研究主題發展等級劃分和趨勢預測方法,通過對文獻內容進行深入挖掘,從更高細粒度、更深層次方面對學科研究主題進行分析,幫助科研人員和科研管理部門有效把握學科領域研究態勢,快速做出科研決策。本文的研究目標是:①以Sen’s斜率估計法計算主題發文度,以Mann-Kendall法計算主題引文度,將兩個指標映射到二維空間,參考波士頓矩陣的命名方式,對學科研究主題發展等級進行劃分。②構建主題熱力度計算公式,采用指數平滑法對學科研究主題未來發展態勢進行預測。③應用提出的學科研究主題發展等級劃分和趨勢預測方法對我國“智慧圖書館”研究進行探析,為科研人員和機構制定科研規劃、開展科研選題提供決策參考。
2相關研究
2.1基于文獻計量學的學科研究主題識別
通常使用的方法有詞頻分析法、共詞聚類法等,其實質是將文獻中的高頻關鍵詞作為重點分析對象,探索學科領域重點研究內容。關鍵詞可以視為對研究內容及研究方法的高度凝練和概括,而高頻關鍵詞在一定程度上可以體現學科領域的研究熱點和前沿主題【1】。因此,通過對論文中的關鍵詞進行統計分析,能夠探析一個學科領域的熱點和趨勢。當前,文獻計量學技術方法完善,分析工具多樣,從而被廣泛應用于學科領域的計量分析中。Song等采用共詞聚類算法,對DBLP會議中生物信息學研究的主題進行了識別【2】。
Jung等將研究者興趣引入到主題識別研究中,探討了虛擬現實領域的主題演進情況【3】。廖遠麗等結合文獻計量學方法與可視化方法,剖析了我國圖書館空間研究的主題分布【4】。張琬笛等依托VOSviewer的關鍵詞聚類分析,對納米技術領域的研究主題進行了分析【5】。但該方法的不足之處是高頻關鍵詞地閾值設置及關鍵詞選取依賴科研人員地主觀判斷,導致遺漏低頻但表征新興研究主題的關鍵詞,此外,關鍵詞之間缺少語義關聯,造成采用此種方法存在一定局限性【6】。
2.2基于機器學習的學科研究主題挖掘
于機器學習的學科研究主題挖掘1975年,Salton等提出向量空間模型(VectorSpaceModel,VSM),開啟了基于機器學習的主題挖掘研究方向【7】。
1990年,Deerwester首次將文本語義信息引入文本主題挖掘過程中,提出潛在語義分析模型LSA(LatentSemanticAnaly⁃sis,LSA)【8】。1999年,Hofmann將期望最大化算法引入文本主題提取過程中,提出了基于概率統計的PLSA模型(Proba⁃bilisticLatentSemanticAnalysis)【9】。2003年,Blei對PLSA進行了完善,將先驗概率引入,提出潛在狄利克雷分配的LDA模型(LatentDirichletAllocation)【10】。相比基于文獻計量分析的學科研究主題識別,基于機器學習的主題挖掘通過嚴謹的數理統計推演過程,具有挖掘內容全面、內容描述清晰、主題語義緊密等優勢,對語義關系模糊、語義結構粗糙的文本語料,主題識別更為準確。
此外,LDA模型的性能優于LSA和PLSA,因此,LDA模型被廣泛應用于學科研究主題挖掘處理任務中。如Kang等采用主題模型,對智能家居護理研究領域進行了主題識別【11】。Balili等構建了一個主題識別和追蹤框架—TermBall,并以PubMed上的學術文獻進行了驗證【12】。李牧南等基于文本挖掘技術,對人工智能領域的科學主題進行了探索【13】。李秀霞等基于LDA主題模型,對國內外教育大數據研究進行了主題識別【14】。
2.3基于機器學習的學科研究主題發展等級劃分
于機器學習的學科研究主題發展等級劃分基于機器學習的學科研究主題發展等級劃分,是在主題識別的基礎上,通過構建分析模型對主題發展狀況進行劃分。目前存在基于前沿性計算對研究主題進行分析的研究,在主題挖掘的基礎上,識別出前瞻價值更高的研究前沿:如鄭彥寧等提出了基于關鍵詞共現的研究前沿識別方法【15】;王效岳等提出了基于基金項目數據的研究前沿主題探測方法【16】;王曰芬等從領域全局演化研究視角,對人工智能進行了研究前沿識別與分析【17】;吳一平等利用文本挖掘方法,分析了高校論文前沿主題和發展趨勢【18】。
此外,也存在基于研究熱度計算對研究主題開展探索的研究,通過總結學科研究熱點主題,揭示學科研究態勢:如李躍艷等以SIGIR年會2008-2019年的錄用論文作為數據源,探索了近十年信息檢索領域的研究熱點【19】;翟姍姍等以2010-2019年間與數據有關的國家社會科學基金立項項目為研究對象,劃分出了重點長線主題和次要熱點主題【20】;李偉超等基于iConference會議,總結了國內外圖書情報學研究熱點【21】;徐小瑩等對近四年圖書情報學科的熱度持續、熱度增加和熱度減退主題進行了挖掘【22】。
分析發現,根據前沿性和研究熱度對學科研究主題發展等級進行分析,能夠有效幫助科研人員和科研管理部門把握學科研究態勢,對定位科研方向、做出科研決策具有重要的推動作用。但已有研究多數是在文本挖掘的基礎上,從研究內容層面,根據主題詞頻次或關聯性劃分學科研究主題發展等級,考慮維度較為單一,等級劃分的細粒度不夠,導致給出的結果信息不夠充分。為此,本文在繼承前人研究的基礎上,結合基于機器學習的主題挖掘方法,從研究主題發展等級劃分和發展趨勢預測兩個視角出發展開探索,以期為科研機構和科研人員制定科研規劃提供實踐方案和決策支持。
3學科研究主題發展等級劃分及趨勢預測方法
學科研究主題發展等級劃分及趨勢預測方法共涵蓋三個分析流程:主題提取與文本聚類、學科研究主題發展等級劃分、學科研究主題發展趨勢預測。
3.1流程一:主題提取與文本聚類
主題提取即獲取學科研究領域涵蓋的多個研究主題,如前所述,LDA模型具有良好的文本潛在主題挖掘能力,能夠高效識別大規模文本語料集中的隱含主題,已被應用于熱點挖掘、文本分類、用戶推薦等領域,本文也將選擇使用LDA模型進行學科研究領域的主題識別。
此外,在學科研究領域相關文獻中,摘要能夠體現研究方法、研究目標等內容,是對論文研究內容的高度凝練,因此,對學科研究領域進行主題提取的過程中,將重點以摘要作為實驗數據。通常采用LDA模型較難直接分析不同主題之間的關聯關系,本文在LDA識別結果的基礎上,采用多維尺度分析,將高維空間中的主題相似性降維到二維空間進行展示,從而可視化LDA提取主題的相互關系。
本文采用R語言中的LDAvis工具包繪制動態交互性的LDA主題可視化圖譜。在pyLDAvis生成的圖譜中,每個圓圈表示一個主題,主題之間的相似程度可以用圓圈之間的距離表示,各個主題之間互不交叉表明各個主題之間相似較小;此外,pyLDAvis還可以通過調節參數λ(≤λ≤1)來控制主題和詞語之間的關聯度,λ=0,顯示主題下特有的、相對獨立的詞項,λ=1顯示分布范圍更廣泛的詞項,通過調節λ值,結合相關詞項,對主題內容進行凝練。
在具體分析過程中,對檢索到的學科研究領域相關文獻進行整合形成實驗數據集,然后按照以下步驟進行實驗:①使用SATI抽取關鍵詞字段,形成學科研究領域詞典;進而,應用R語言的jiebaR包對抽取的文獻摘要進行自然語言處理形成實驗數據集。②利用R語言中的lda包對實驗數據集進行主題建模,采用LDAvis模型確定最優主題數目。③主題提取完成后,需要確定每篇文獻所屬的研究主題,以備后續實驗流程的順利開展,所以,本文采用LDA模型和Kmeans算法融合的方式實現文本聚類【23】。
3.2流程二:學科研究主題發展等級劃分
學科研究主題發展等級劃分的過程共包含三個模塊:首先,基于研究主題文獻發表量計算主題發文度;然后,基于研究主題被引量計算主題引文度;最后,將主題的發文度和引文度在二維空間進行可視化映射,并參考波士頓矩陣進行研究主題發展等級劃分。
(1)主題發文度計算研究主題的逐年發文量,在一定程度上能夠反映該主題的研究趨勢,從研究人員視角來體現研究主題的活躍程度。本文選擇采用Sen’s斜率估計法對研究主題的發文量斜率進行計算。Sen’s斜率估計法是描述時間序列趨勢性的定性方法,抗噪性強,相關研究已將此方法引入到學科領域研究前沿的識別中【24】,驗證了該方法在研究主題發文趨勢分析中的適應性和科學性。
3.3流程三:學科研究主題發展趨勢預測
在對學科研究主題發展等級劃分的基礎上,進一步對學科研究主題發展趨勢進行預測,幫助科研人員既能明晰當前學科研究主題的發展現狀,又能清晰把握主題未來發展態勢。其中,研究主題發文量體現了研究人員對主題的關注度,而主題被引量和下載量體現了科研用戶對主題的關注度,將這三個指標融合,形成主題熱力度指標,用于預測研究主題的未來發展態勢。
4實驗結果
4.1數據來源
本文數據來源于CNKI數據庫,將“智慧圖書館”作為學科研究領域進行文獻檢索。將主題詞限定為“智慧圖書館”,時間不限,即標題、關鍵詞、摘要中出現“智慧圖書館”,則認為該文獻與“智慧圖書館”相關。檢索發現,2011年之前與“智慧圖書館”相關的文獻較少,因此,獲取2011-2020年的數據進行重點研究,共獲得文獻數據2176條。
4.2主題提取與文本聚類
題提取與文本聚類根據研究主題的識別流程,當主題數目設置為10個,α=5,β=0.1時,基于LDAvis模型呈現的主題可視化結果,各個主題之間相互獨立,表明主題數目最優。依據最優模型的輸出結果,首先應用“文獻-主題”概率分布矩陣進行文本聚類,進而結合研究主題下的相關詞對主題進行凝練。
4.3學科研究主題發展等級劃分
依據給出的學科研究主題發展等級劃分流程,計算每個研究主題的主題發文度(公式(1))與主題引文度(公式(2)—(3))。分析發現,“智慧圖書館”領域涵蓋的10個研究主題,其主題發文度和主題引文度均大于0,表明“智慧圖書館”領域各個研究主題的發文量和引文量均成上升趨勢,體現了國內學術界對“智慧圖書館”領域的持續關注。由于10個研究主題的主題發文度和主題引文度均大于0,為了能夠清晰界定研究主題之間的等級界限,分別獲取主題引文度和主題發文度的中位數為(2.764,5.536),作為發展等級界限劃分的閾值。參考波士頓矩陣的命名方式,依據設置的閾值進行發展等級劃分:
(1)第一維度→“明星類”主題,Z>2.764,β>5.536,特指研究主題引文度和發文度“雙高”的主題群,說明科研用戶對該研究主題的知識需求量快速增加時,研究人員的成果供應量也在高速遞增,表明研究主題處于快速成長期,需要科研人員重點關注。
(2)第二維度→“金牛類”主題,Z<2.764>5.536,特指研究主題發文度高,但主題引文度較低的主題群,說明研究人員的成果供應量大于科研用戶的知識需求量,表明研究主題處于成熟期,科研人員可保持適當的關注。(3)第三維度→“瘦狗類”主題,Z<2.764,β<5.5364z>2.764,β<5.536,特指主題引文度高,但主題發文度較低的主題群,說明科研用戶的知識需求量大于研究人員的成果供應量,表明研究主題正處于緩慢成長期,創新潛力強,科研人員應該增加對研究主題的關注度。通過上述方式,實現了對學科研究主題發展等級地劃分,為科研人員和科研管理部門明晰“智慧圖書館”領域發展現狀,把握研究主題發展動向,確定研究切入點提供了參考指引。
4.4學科研究主題發展趨勢預測
科研究主題發展趨勢預測通過以上學科研究主題發展等級的劃分,得到我國“智慧圖書館”領域的4個“明星類”主題、1個“金牛類”主題、4個“瘦狗類”技術主題、1個“問題類”主題。由于“明星類”主題是當前學科研究的熱點和前沿,處于快速成長階段,科研人員應考慮將其作為重點研究方向,因此,本文依據學科研究主題發展趨勢預測流程,重點對“明星類”主題進行趨勢預測的結果展示,使用公式(4)—(9)計算每個研究主題的逐年熱力度,并使用三次指數平滑法對各個研究主題未來三年(2021-2023年)的發展態勢進行預測。
在預測效果評估方面,選擇均方根誤差(RMSE)和平均絕對誤差(MAE)作為判斷預測效果優劣的指標,其中RMSE和MAE集中在0.2左右,表明研究主題發展趨勢預測效果良好。“主題1→圖書館智慧服務”在2011-2014年的主題熱力度呈下降趨勢,在2017-2020年呈上升趨勢,未來三年的熱力度預測仍為上升態勢。隨著信息化的高速發展,傳統圖書館很難滿足用戶多元化的資源需求,這也推動了傳統圖書館向智慧圖書館的過渡和轉型。
智慧圖書館是智能技術、智慧圖書館員、圖書館業務管理相互融合的結果,而智慧服務是智慧圖書館的核心,具有空間虛擬化、流程智能化、內容知識化等特點。如陸婷婷對人工智能時代的智能圖書館服務內容、實現途徑與發展瓶頸進行了研究【27】;陳丹等提出了基于用戶畫像的圖書館個性化智慧服務模型框架【28】;陳小平提出區塊鏈技術能夠助力圖書館智慧服務在管理體制、機構庫建設、知識交易服務模式上的轉變【29】;董同強等從大數據與人工智能雙驅動的視角設計了高校圖書館智慧型學科服務平臺【30】。在物聯網和人工智能等智能技術的驅動下,智慧服務將成為未來圖書館發展的新方向,而宏觀層面的功能定位及微觀層面的業務重組為科研人員的持續探索提供了廣闊空間。
“主題4→圖書館轉型”在2012-2015年的主題熱力度呈上升趨勢,在2016-2020年呈平穩發展趨勢,未來三年的熱力度預測仍為上升態勢。圖書館轉型既是當代圖書館事業發展的關鍵特征,也是圖書館學理論研究的關注焦點。在信息時代數據意識全面增強的背景下,圖書館作為科研活動和文化事業發展的重要支撐,其服務和管理也應向數據化和智能化轉向。相關研究也從空間、資源、服務、管理等要素出發,探討了圖書館轉型的實踐路徑。
如邵波等提出以數據智能計算為中心,將數據服務作為新時代圖書館服務的主要能力【31】;柯平等對后知識服務時代的圖書館轉型理念、關鍵要素與路徑問題進行了剖析【32】;初景利等提出要加快從資源能力到新型服務能力的轉變,構建圖書館新型服務能力【33】;饒權提出建設“全國智慧圖書館體系”,推動圖書館由數字化向智慧化發展【34】。在新一輪科技和產業革命引領下,為圖書館的轉型發展帶來了新的機遇,推動圖書館向智慧化轉型將引發科研人員的持續關注。“主題7→智慧圖書館前沿技術”在2011-2020年的主題熱力度持續呈波浪式的上升,未來三年的熱力度預測仍為上升態勢。
以人工智能、大數據、云計算、區塊鏈為代表的新興技術不斷成熟,如何將新興技術與圖書館服務場景相結合,提升圖書館智慧化服務水平,引發了科研人員的廣泛研究。如洪亮等以圖書館的業務流程為支撐和導向,構建了大數據驅動的圖書館智慧信息服務體系【35】;傅云霞對人工智能在智慧圖書館的應用領域進行了研究【36】;周耀研究設計了4個基于區塊鏈技術的智慧圖書館應用系統【37】;任萍萍構建了5G技術驅動下的智慧圖書館應用場景與智慧平臺模型【38】。
因此,將新興技術與圖書館業務深度融合,創新智慧圖書館業務生態,將成為科研人員持續探索的重點。“主題8→智慧圖書館系統架構”在2011-2020年的主題熱力度呈上升趨勢,未來三年的熱力度預測仍為上升態勢。在國家深入推進創新驅動發展和“云數智”賦能時代背景下,新興信息技術與智慧圖書館的深度融合推動了圖書館基礎設施層、數據資源層和服務應用層的系統架構變革。
相關研究也從理論走向實踐,優秀實踐案例不斷涌現,為后繼者提供范例參考。如李靖等探討了上海交通大學圖書館自助服務的轉型實踐【39】;曹畋分析了南京曉莊學院圖書館采用智能化技術提升學科服務的新思路、新模式【40】;秦中云等以北京聯合大學圖書館為例,闡述了云計算環境下多校區圖書館智慧服務平臺構建的平臺架構【41】;林珍梅設計了基于Ha⁃doop的高校圖書館閱讀書目智慧推薦系統【42】。因此,以圖書館的業務流程為支撐和導向,重構圖書館系統架構的業務流程,仍存在廣泛的探索空間。
圖書館專業論文:新時期地方公共圖書館管理服務創新思考研究
5結語
本文結合主題模型、Sen’s斜率估計法、Mann-Kendall法、指數平滑法,提出了一種學科研究主題發展等級劃分與趨勢預測方法。本方法共涵蓋三個流程:首先是采用主題模型對學科領域進行主題提取和文本聚類;進一步,從研究人員和科研用戶兩個視角出發,應用Sen’s斜率估計法計算主題發文度,應用Mann-Kendall法計算主題引文度,將兩個指標映射到二維空間,并參考波士頓矩陣的命名方式,實現對學科研究主題發展等級進行劃分;最后,融合研究主題發文量、被引量和下載量,形成主題熱力度指標,采用指數平滑法對學科研究主題未來發展態勢進行了預測。
本文以CNKI數據庫為數據來源,以“智慧圖書館”為例進行了方法實證,并與共詞聚類分析方法進行了對比,驗證了本文所提方法的準確性和有效性,為科研人員和科研管理部門把握學科研究主題發展現狀及未來發展態勢、制定研究規劃、確定科研方向提供了可靠有效的決策參考。需要說明的是,本文采用LDA模型進行主題提取,但主題內容凝練依賴主觀判斷,需要探索更加有效的主題識別方法,提高結果的語義信息量,以提高主題的可解讀性;此外,在趨勢預測中直接應用了三次指數平滑法,沒有與其他時間序列預測方法進行比較,選擇應用最優方法。這些都會對本文的結論產生影響,我們將在后續的研究中加以改進。
參考文獻:
1譚春輝,熊夢媛.基于LDA模型的國內外數據挖掘研究熱點主題演化對比分析[J].情報科學,2021,39(4):174-185.
2SongM,HeoGE,KimSY.Analyzingtopicevolutioninbioinformatics:InvestigationofdynamicsofthefieldwithconferencedatainDBLP[J].Scientometrics,2014,101(1):397-428.
3JungS,YoonWC.Analternativetopicmodelbasedoncommoninterestauthorsfortopicevolutionanaly⁃sis[J].JournalofInformetrics,2020,14(3):101040.
4廖遠麗,羅瑞林.我國圖書館空間研究演進的可視化分析[J].情報科學,2018,36(12):106-110.
5張琬笛,胡志剛,郭佳程,等.基于S曲線的研究主題演進分析與可視化技術[J].信息資源管理學報,2020,10(3):70-77,101.
6巴志超,李綱,朱世偉.共現分析中的關鍵詞選擇與語義度量方法研究[J].情報學報,2016,35(2):197-207.
7SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationsoftheACM,1975,18(11):613-620
作者:宋凱1,冉從敬2