時間:2021年05月17日 分類:文學論文 次數:
摘要:在實際分類數字圖書信息時,受到數字圖書停用信息的干擾,導致圖書信息分類準確度不高,針對該不足,設計一種基于向量空模型的數字圖書信息分類系統。硬件部分選用MPC755的處理器作為圖書信息處理核心,設計一個CPU板卡,為了滿足硬件數據冗余信息的輸出,連接一個輸出電路。軟件部分利用向量空模型構建信息分類規則,以相同分類規則下的數據作為作用對象,構建一個停用信息過濾模塊,最終完成對數字圖書信息分類系統的設計。選用系統開發工具,連接分類系統硬件后,搭建實驗測試環境,分別使用基于LSTM和CNN混合模型的分類系統、傳統分類系統以及文中設計的分類系統進行實驗,結果表明文中設計的分類系統信息分類準確度最高。
關鍵詞:數字圖書;信息分類;向量空模型;信息處理;信息過濾;系統設計;實驗測試
0引言
向量空間模型是一個把文本文件表示為標識符向量的代數模型,主要應用在信息過濾、信息檢索、索引以及相關排序過程中[1]。數字圖書館是用數字技術處理和儲存各種文獻的圖書館,從結構的性質上來講,數字圖書館是一種多媒體的分布式信息系統,它能夠將不同載體、不同地理位置的信息資源通過數字技術進行儲存, 進而方便用戶使用。為了增強數字圖書館的使用性,對數字圖書館內的各項文獻進行分類,使用者可以更加方便快捷地查詢得到所需的信息[2]。
在向量空間模型的控制下,設計一種數字圖書信息分類系統,能夠為不斷優化的數字圖書館各項性能提供幫助。國外針對數字圖書信息分類系統研究起步較早,各個發達國家大學研究者在各個算法的支持下,現已形成了支持不同功能的信息分類系統[3]。國內在設計數字圖書信息分類系統方面起步較晚,從整體的技術水平上來講,該項技術還處于發展階段,仍需不斷研究發展。
圖書館評職知識:圖書館課題題目有哪些
1信息分類系統硬件設計
1.1CPU板卡的設計
數字圖書信息分類系統處理的數據信息較多,所以在設計CPU板卡時,選用型號為MPC755的處理器,中央數據處理芯片選用MPC107橋芯片,將SDRAM作為儲存電路的核心,以FPGA作為CPU板的控制器,在看門狗電路的控制下,連接一個支持總線協議芯片ARINC659。
處理器MPC107接口拓展橋芯片,為了增強核心數據處理器的響應速度,控制處理器外部連接一個二級緩存,橋接芯片外部管腳連接一個數量級為60的線路,芯片另外一側連接互聯網PCI接口[4]。控制芯片內部的中央控制單元串聯一個寄存器,寄存器負責調和中央控制單元外圍邏輯模塊的發送數據量。
為了增強CPU板卡上數據的存儲量,在板卡上SDRAM儲存電路上并聯兩個UserFLASH存儲器、一個BootFLASH存儲器以及一個非易失性儲存器,控制SDRAM負責儲存信息分類時產生的指令數據,UserFLASH存儲器1負責儲存圖書信息類別屬性的數據,UserFLASH存儲器2用來儲存系統登錄用戶的數據信息,BootFLASH存儲器負責儲存系統引導分類時產生的冗余數據,非易失性存儲器則用來儲存分類系統啟動時的配置信息[5]。
在不同性質用途的控制下,設定上述存儲器的容量。在上述儲存器容量控制下,在各個芯片的總線路上設置一個復位監控芯片,負責監控整個CPU板卡的工作狀態。在控制板接收到數字圖書信息時,監控芯片會將該圖書信息數據轉化為信號,控制看門狗輸入管腳連接FPGA中的硬件總線,設定FPGA寄存器中的計數數值為5,一旦達到該數值,復位芯片發出控制信號,完成一次復位,此時數字圖書信息在硬件結構上完成一次分類[6]。在設計CPU板卡后,連接板卡各個硬件元件形成一個穩定運行的硬件連接電路。
1.2硬件連接電路
在上述硬件板卡的控制下,數字圖書信息存在多種冗余資源輸出,所以在設計硬件連接電路時,設計一個輸出電路,實現硬件結構對數據的容錯功能[7]。在各個硬件元件的線路電壓處放置不同數值的電阻,維持各個硬件元件的電壓穩定,設定整體電路的電壓數值在3.3~8V之間,在硬件元件少的支路上放置低阻抗且數值為10Ω的電阻,控制在相同時刻下,輸出一個驅動負載,形成的輸出電路。
在其中的的輸出電路結構控制下,控制板卡內控制處理器連接管腳6,數字圖書信息通過管腳2進入到核心的處理單元中,經過核心硬件的處理后,經由管腳5輸出?刂坪诵奶幚戆逋ㄟ^FPGA總線連接存儲器構成的儲存電路,在存儲器自帶功能的控制下,實現硬件電路的外部擴展[8]。
在線路總線的另一側采用異步串行的接口方式,合理布局CPU處理板與儲存電路走線位置。結合RS422標準四線制規范數字圖書信息數據的走向。使用處理器與橋芯片集成的UART模塊功能,設定電路內的電平轉換形式。系統硬件電路采用一個整體電源模塊進行供電,在儲存電路以及輸出電路的控制下,將硬件的供電需求劃分為兩個部分,第一個部分為整體的硬件電路供電,第二部分為CPU板卡內的芯片處理器供電,在整體電源與硬件芯片的連接線路上放置一個電壓轉換器,為了滿足硬件元件與電路之間的穩定,穩壓器選用型號為AMS1084⁃3.3V的三端穩壓器[9],最終完成對圖書信息分類系統硬件的設計。
2信息分類系統軟件設計
2.1利用向量空模型構建信息分類規則
在利用向量空間模型構成信息分類規則時,轉化數字圖書信息為空間向量[10],假設一次分類過程中數字圖書信息集中含有n個數字圖書信息文檔,每個信息文檔中含有m個不同的特征項,各個特征項相互獨立,則存在如下數量關系:d=t·wk(1)式中:t表示信息特征項;wk表示特征項在圖書信息中的權重。假定(t1,t2,…,tm)是一個y維的坐標軸,根據其內部不同的坐標數值,計算得到數字圖書信息的特征向量,則其可表示為:Vd=dwk(2)式中:Vd表示文本中的特征向量;其余參數含義不變。整合相同數值的信息為一個集合D,該集合可表示為:D=éëêêêùûúúúVd1Vd2⋮Vdn(3)在上述處理過程下,就形成一個數字圖書信息轉化的過程。
2.2功能模塊的實現
在構建的信息分類規則下,以相同規則下的圖書信息樣本為實現對象[12],構建一個停用信息過濾模塊。在其中的停用信息過濾模塊下,根據式(3)計算得到相似度數值,刪除特定詞匯表中數值小于3的詞匯[13]。根據不同的數值,計算其對應的匹配度,計算公式可表示為:MI(t)=logA·N(A+C)·(A+B)(6)式中:N表示待匹配的所有信息;A,B,C分別表示不同類別的信息項;其余參數含義不變。將停用信息篩選出后,利用軟件線程池的LinkList鏈表作為線程分類任務[14],在ThreadPool接口處形成如圖5所示的分類過程。
基于上述實驗準備,假定三種分類系統待分類的圖書信息的類別為經濟、生活、軍體、社會、文學以及政法,每項圖書信息種類準備50條,定義分類得到的標識符與準備圖書信息內的標識符相同時,即為一次成功分類過程。
在針對相同數量以及種類的數字圖書信息時,三種分類系統表現出了不同的分類準確性,以其中平均準確率數值可知,文獻[8]中的分類系統的信息分類準確率數值在77.91%左右,分類準確率較低。傳統分類系統在實際分類時,最終的分類準確率數值在87.58%左右,準確率數值較高。
而文中設計的圖書信息分類系統最終的分類準確率在97.76%左右,與前述兩種信息分類系統相比,文中設計的信息分類系統準確率數值最大,信息分類準確。保持上述實驗環境不變,在300條信息數據的分類工作中,按照每組50條信息為分界,測量三種分類系統在分類后所需的分類時間,繪制分類指令響應時間結果圖表。三種信息分類系統針對相同數量的待分類信息表現出了不同的時間響應結果,以最終300條數字圖書信息為對比標準,文獻[8]中的信息分類系統所需的時間在240ms左右,所需的信息分類時間較長。而傳統信息分類系統所需的分類時間在180ms左右,分類信息所需的時間較短。
而文中設計的信息分類系統所需的分類時間在90ms左右,與上述兩種信息分類系統相比,文中設計的信息分類系統所需的分類時間最短。綜合上述實驗結果可知,文中設計的信息分類系統在實際工作時,對不同種類的信息分類更加準確,所需的分類時間最短。
4結語
隨著數字圖書館不斷地利用普及,如何對數字圖書信息進行分類逐漸成為研究的重點,本文設計一種基于向量空模型的數字圖書館信息分類系統能夠準確地劃分圖書信息,改善了現有數字圖書信息分類系統分類時間較慢的不足,為今后研究數字圖書信息分類提供了理論研究方向。
參考文獻
[1]徐彤陽,尹凱.基于深度學習的數字圖書館文本分類研究[J].情報科學,2019,37(10):13⁃19.
[2]韓東.基于向量機的體育運動視頻自動分類方法設計[J].現代電子技術,2019,42(7):79⁃81.
[3]巴志超,李湘東,馬亞雪,等.基于主題語義擴展的混合類型數字資源分類研究[J].情報理論與實踐,2018,41(5):143⁃149.
[4]韋修喜,黃華娟,周永權.基于AP聚類的約簡孿生支持向量機快速分類算法[J].計算機工程與科學,2019,41(10):1899⁃1904.
[5]潘紅光,米文毓,鄧軍,等.基于改進單關節信息傳輸模型的閉環腦機接口系統設計[J].控制理論與應用,2020,37(2):395⁃404.
[6]許曉飛,常健,楊重柱,等.基于用戶臉部信息的推薦系統設計[J].高技術通訊,2018,28(z2):972⁃979.
[7]段建國,王彥森,謝楠.基于時間向量的多工序加工系統工藝路線重組建模與優化[J].計算機集成制造系統,2020,26(7):1814⁃1823.
作者:況書梅,王莉莉