第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

基于有效稠密序列提取的用戶評分數據增強及二值評分轉換策略

時間:2021年12月31日 分類:推薦論文 次數:

摘要:通過評分數值提取反映每個用戶主要興趣特征的高興趣項目特征,并利用用戶高概率感興趣的項目內容進行評分數據填充,形成用戶評分數據的有效稠密序列,并進一步按照二值視圖思想進行用戶評分子序列的二值評分轉換。文中所提出的算法普遍優于其他對比實驗算法,隨

  摘要:通過評分數值提取反映每個用戶主要興趣特征的高興趣項目特征,并利用用戶高概率感興趣的項目內容進行評分數據填充,形成用戶評分數據的有效稠密序列,并進一步按照二值視圖思想進行用戶評分子序列的二值評分轉換。文中所提出的算法普遍優于其他對比實驗算法,隨著最近鄰居數量的不斷增加,RMSE最優值達到0.8988,準確率和F值提高最為明顯,其中準確度最高提高8.66%,F值最高提高33.96%。使用基于有效稠密序列提取的用戶評分數據增強策略要比傳統協同過濾方法表現更為優異,并且在表達用戶興趣特征的準確性和一致性方面,使用二值評分數據方法要明顯優于原始評分數據方法。

  關鍵詞:稠密序列;二值視圖;數據增強;數據稀疏;推薦系統算法

數據工程

  推薦系統在日常生活中的應用變得非常普遍,有學者據此斷言“我們正在離開信息時代,進入推薦時代”[1]。目前,推薦系統已被廣泛應用于人工智能[2]、電子商務[3]、數字圖書館[4]等應用系統中,越來越多的網站和社交媒體的競爭開始逐漸轉變為個性化推薦服務的競爭。推薦系統的目的正在于基于已有的用戶興趣歷史記錄來判斷用戶未來的可能興趣點,以便推薦給用戶尚未關注到的潛在感興趣內容。

  因此,如何根據用戶的瀏覽信息或者購買情況推薦更符合用戶興趣的項目是推薦系統面臨的一個重大挑戰。改進推薦系統的算法不能完全建立在算法自身的完善上,而作為目前所有推薦系統算法的關鍵內容———數據本身,卻并沒有受到人們過多的重視。這給現有推薦系統算法改進提供了一個有益的研究思路,即如何有效選擇數據,通過數據增強等方式來獲得更為準確的用戶興趣模式的表達能力[5]。

  協同過濾是一種非常有效而且應用廣泛的個性化推薦技術[6],它基于一個簡單的假設,那就是用戶過去的興趣代表著未來的興趣。因此,通過分析已有的用戶興趣信息(這主要由用戶對項目的評分來體現),就可以對未來未知項目的評分做出預測。這個假設在一定程度上具有合理性,如有學者利用招聘信息網站上的用戶數據分析發現,對于每個用戶,在過去14周內平均有2/7的項目會被用戶在第15周再次點擊[7]。

  具體而言,協同過濾推薦方法是通過獲取和當前用戶相似的其他用戶,來給當前的用戶提供合適的意見或者項目。其優點在于不需要了解項目的具體內容信息,也可以為用戶推薦新的可能感興趣內容。然而傳統的協同過濾算法也存在著很多的不足,比如傳統協同過濾算法中使用的評分是否可以有效表達用戶真實興趣并沒有得到準確的驗證,再如傳統協同過濾算法無法處理過于稀疏的數據,此時易于產生相似度計算不準確的問題。因此,這些構成了本文研究的兩個主要關注點:

  (1)本文探究和驗證了如何在數據層面上獲取更為準確表達用戶真實興趣的新方式。當前大部分學者都認為評分行為是一種非常有效的判斷用戶興趣的方式,現有的研究方法也大都基于這個假設。但是,用戶評價與否是否可以表征用戶的興趣,或者說相對于評分的具體數值,評分與否這種二值性(Binary)是否更有價值,這種問題也被稱為“二值視圖(Binaryview)”[8]。從用戶的動機角度來思考,用戶之所以在推薦的項目中有選擇地選擇部分項目而忽略其他項目,這本身就體現了一種用戶興趣的差異性。

  因此,用戶不去對項目進行評價的過程本非隨機現象[9]。現有的評分因為都是用戶對自己想關注的項目進行評價,通常評分更易于取得較高的數值,而且還會對很多基于評分的推薦算法本身產生不利的影響。有效地利用這些遺漏項目和進一步理解現有打分數據,對于改善基于評分的各種推薦方法十分必要[10]。(2)本文探究了如何解決數據稀疏給協同過濾方法帶來的計算有效性問題。

  本文重點研究了基于有效稠密子序列的協同過濾推薦算法有效性的計算問題,即通過在已有的用戶評分記錄中合理選擇有效稠密子序列,增加有效數據的稠密度,減少了噪聲數據的不利干擾?紤]到這種改進會帶來數據稀疏度問題,本文通過分析項目的屬性特征并結合用戶的有效時間區間識別用戶的高概率參與項目,對數據進行填充。同時,本文還使用用戶興趣變化一致性來深入研究分析用戶評分信息與用戶是否評價來驗證用戶需求方面的效果,據此結合第一種方法的思路,提出了一種根據用戶是否評價的二值數據來替換傳統具體評分數值的數據表達方法,實驗證明采用用戶是否評價的二值數據會取得更為優異的實驗結果。

  1相關工作

  傳統的協同過濾算法主要包括3個重要步驟,分別為獲取數據、尋找最近鄰元素、預測推薦。在整個算法過程中,對結果準確率影響最大的就是數據稀疏問題。丁少衡等[11]為解決協同過濾推薦系統數據稀疏帶來的問題,使用Sigmoid函數來實現數據稀疏狀態下用戶相似度計算中的用戶屬性和用戶評分信息平滑過渡,毛宜鈺等[12]也提出使用Sigmoid函數來處理用戶評分存在的數據稀疏性問題。

  錢刃等[13]提出用融合稀疏度進行加權的協同過濾算法來解決稀疏性問題,該算法中重新定義了矩陣稀疏度計算方法,然后融合矩陣稀疏度對用戶相似度進行加權,并以此來改進協同過濾算法。為了有效挖掘用戶興趣的變化趨勢,很多學者提出基于用戶興趣變化的協同過濾推薦算法,如于洪等[14]通過遺忘曲線來觀察用戶興趣以達到適應用戶興趣變化的目的,賈偉洋等[15]利用用戶興趣貼近度對相似度結果進行進一步加權處理,得到的相似度結果中融合了用戶的興趣偏好信息。

  關于二值視圖問題,可以將用戶是否評價作為最為簡單的一種隱式信息,把用戶是否對項目產生過評分設定為一個二進制值,據此來表示偽隱式評分(Pseudo⁃implicitrating)。由于用戶對于項目評價并非是一種隨機行為,評價行為本身就反映了一種用戶對項目的偏好信息[16]。即使這種信息并非很充分,但是和單純使用顯式用戶信息的方法相比,集成該隱式信息到現有顯式信息中可以增加推薦系統的預測準確度[17]。

  對于不評價的項目既有可能是用戶不喜歡,更有可能是用戶根本沒看到,可以稱之為用戶曝光(Userexposure)問題[9]。比如不評分不能完全看成是項目的問題,也有可能來自于用戶的意愿,比如用戶只對特別喜歡和特別不喜歡的項目才去評價。在一定程度上,可以把這種用戶是否評價看成是一種隱式信息,它和評分信息具有一定的關聯性,加以有效利用可以提高傳統基于評分方法的推薦系統效果[18]。

  此時,評分矩陣(Ratingsmatrix)簡化為二值矩陣(Binarymatrix)。對于評分矩陣中缺失項目的理解和考慮已經成為一種非常有效的方法[19],比如作為隱式的負反饋來訓練推薦系統[20]。還有文獻對遺漏數據模型的低階特征(Lowranknature)進行研究,并推導出系統性能的底線[21]。在無法從評分直接判斷用戶的喜好時,這些被經常顯示的項目也被其他學者認為應該排在推薦列表的后面[22]。

  和這些已有的方法不同,本文所提出的方法主要在不改變現有原始數據的基礎上,通過有效的數據選擇,提取有效稠密數據子集,這也給現有推薦系統中數據稀疏問題解決提供了一種新的思路和可行性。本文從實驗驗證的角度,探索結合二值視圖數據在表達用戶真實興趣中的價值,并據此完成了現有推薦算法的改進。同時,對于推薦系統應用中的相似度問題,已有學者通過利用人口統計學信息實現用戶相似度的測度[23],還有學者利用模糊聚類方法實現項目聚類,得到潛在相似關系集合并分區,最終以分區為單元實現相似度的并行計算[24]。本文根據二值評分數據的特點,探索基于二值評分數據的相似度計算及項目評分預測方法。

  2二值評分轉換策略設計及應用

  2.1用戶評分數據的有效稠密序列

  通過觀察傳統的協同過濾算法,可以發現在用戶評分矩陣中,每個用戶都存在大部分未參與項目,這會導致數據變得異常稀疏,為了緩解這些難以避免的問題,本文提出利用有效稠密序列的方法進行改進。步驟分為兩步:第一步是對用戶的評分序列進行篩選,過濾序列中用戶參與的不感興趣項,并以用戶存在潛在興趣且未參與的項目對數據序列進行填充,形成新的用戶評分子序列,據此緩解數據稀疏問題;第二步是根據評分發生的有效時間區間,再次對用戶評分序列進行子序列提取,用二值數據進行轉換表示,并提出改進后的用戶相似度方法。

  2.2二值評分數據的有效性驗證方法設計

  前文已經說明,用戶是否已經評價的二值評分數據可以被理解為一種潛在用戶興趣,即用戶在沒有給項目評分之前,完全憑借自己的興趣愛好選擇的項目就能代表用戶的潛在興趣。比如在現實生活中,人們看一部電影,往往不是因為聽別人說這部電影非常好看才去看,也不會因為這部電影的評分很高就去看,更多情況下是這部電影是自己喜歡的類型才會有選擇性地去看。

  正因如此,當兩個人都是因為各自的潛在興趣去選擇同一部電影時,通過相互之間的分析,可以更準確預測其他事物的結果。拿電影數據集來舉例,傳統協同過濾算法評分矩陣中的數據是用戶對電影的評分值,那么這個評分值是在用戶看完這部電影之后,給出的對這部電影的評價,如果評分為4分或者5分,可以認為用戶喜歡這部電影,也可以認為用戶是出于對這類電影的喜愛,又或者是用戶只是喜歡這部電影的主演而已,原因因人而異,想把眾多原因整合到一起,工作量非常巨大并且難以實現。

  因此,基于用戶是否評價的二值數據表達,可以提供一種只研究用戶興趣的簡單方法,不需要關注用戶給一部電影打了多少分,也不需要關注用戶到底是基于什么原因給電影打分,只需要關注用戶有沒有看過這部電影,如果看過,則標記用戶與電影之間的關系為“1”,否則為“0”。這種新型數據表達的思路需要實驗的驗證,為此設計如下驗證實驗。實驗方法:通過用戶過去與未來的評分項目類型相似度來比較二值數據與評分數據對用戶興趣的表達有效性。

  實驗步驟:(1)每個用戶按評分時間先后順序將其評價項目分成訓練集和測試集,其中訓練集中的數據為用戶過去評價的項目,測試集中的數據為用戶將來評價的項目;(2)訓練集中每一個用戶的評價項目類型數目形成向量,同樣方式找到測試集中的序列形成向量,形成待比較的兩個向量;(3)將每個用戶得到的二值評分向量進行相似度計算,相似度計算方法采用的是2.3節中的式(1),最終將所有用戶的相似度取平均值。

  2.3基于二值評分數據的相似度計算及評分預測

  傳統協同過濾中常見的相似度計算方法無法進行二值評分數據向量的相似度比較,如使用余弦相似度去計算,就會造成分母為0的無意義情況,而使用調整余弦相似度和皮爾遜[25]相似度計算則不可避免地需要計算評分的平均值,對于二值數據而言,平均值沒有任何意義。

  3實驗與結果分析

  本文提出的改進算法相比其他經典算法,3個指標普遍提高,其中準確率和F值提高最為明顯,和其他方法相比,都取得更好的指標值,其中準確度最高提高8.66%,F值最高提高33.96%。召回率和部分方法相比有所下降?梢,本文所提方法更適合側重于準確率指標的海量數據推薦場景下推薦系統的服務應用。

  4結束語

  本文通過提取用戶評分信息中的有效稠密序列和生成有效數據的方法來改進傳統協同過濾算法,在此基礎上對比研究了用戶原始評分值和是否評分的二值評分數據對用戶興趣表達的有效性。該方法綜合利用了用戶評分數據的有效稠密序列提取方法和二值評分轉換方法,在此基礎上實現了相似度計算方法的改進,實驗證明方法有效。本文所提出的改進協同過濾算法不僅利用稠密序列和數值填充等數據增強方式克服了數據稀疏性問題帶來的不利影響,同時還可以更準確地識別用戶興趣特征。但是在本文改進的算法中,使用用戶是否評分的二值數據相較于原始評分值的優化改進仍然還有很大的空間,同時在提高召回率方面也需要進一步優化,這些都構成了本文后續研究的主要側重點。

  參考文獻:

  [1]HITTMA.Thelongtail:whythefutureofbusinessissellinglessofmore[J].AcademyofManagementPerspec⁃tives,2011,21(2):83-85.

  [2]ZHANGS,YAOLN,SUNAX,etal.Deeplearningbasedrecommendersystem[J].ACMComputingSurveys,2019,52(1):1-38.

  [3]洪亮,任秋圜,梁樹賢.國內電子商務網站推薦系統信息服務質量比較研究:以淘寶、京東、亞馬遜為例[J].圖書情報工作,2016,60(23):97-110.HONGLiang,RENQiuyuan,LIANGShuxian.Acompara⁃tivestudyofinformationservicequalityofE⁃commercesites

  [4]馬曉亭.基于情景大數據的圖書館個性化服務推薦系統研究[J].現代情報,2016,36(4):90-94.MAXiaoting.Studyofpersonalizedservicerecommendationsystemforlibrarybasedoncontextualbigdata[J].JournalofModernInformation,2016,36(4):90-94.(inChi⁃nese)

  [5]XIEHS,CHAIWD,LINSF.Sequencedataenhancementmethodbasedonknowledgegraph[C]∥IEEEInternationalConferenceonParallel&DistributedProcessingwithAppli⁃cations,BigData&CloudComputing,SustainableComputing&Communications,SocialComputing&Networking(ISPA/BDCloud/SocialCom/SustainCom).2019:1359-1364.

  [6]邢春曉,高鳳榮,戰思南,等.適應用戶興趣變化的協同過濾推薦算法[J].計算機研究與發展,2007,44(2):296-301.XINGChunxiao,GAOFengrong,ZHANSinan,etal.Acollaborativefilteringrecommendationalgorithmincorporatedwithuserinterestchange[J].JournalofCom⁃puterResearchandDevelopment,2007,44(2):296-301.(inChinese)

  作者:崔北亮1,周小康2,李樹青2

主站蜘蛛池模板: 欧美一区二区三区视频 | 手机看片国产日韩 | 久久精品国产999久久久 | 国产精品久久久久久久久夜色 | 欧美性一级交视频 | 欧美一级特黄毛片免费 | 福利视频在线看 | 美女高清视频喷水 | 1000部啪啪未满十八勿入福利 | 久久国产视频在线观看 | 日本免费久久久久久久网站 | 妞干网免费在线 | 福利在线不卡 | 国产欧美日韩精品a在线观看 | 免费黄色网址大全 | 特黄特色大片免费高清视频 | 欧美国产人妖另类色视频 | 婷婷综合网 | 视频在线一区二区三区 | 国产午夜精品久久久久九九 | 亚洲色图第一页 | 国产亚洲福利精品一区二区 | 一级视频网站 | 亚洲第一区视频在线观看 | 成人免播放器午夜视频 | 日韩欧美一区二区三区免费看 | 中文字幕亚洲一区二区v@在线 | 一区二区三区四区在线播放 | 欧美一区二区在线观看 | 视频一区二区国产无限在线观看 | 亚洲精品久久久久久中文字幕小说 | 中文字幕一区二区区免 | 4388免费特色视频 | 亚洲精品欧美精品一区二区 | 国偷盗摄自产福利一区在线 | 国产午夜精品一二区理论影院 | 国产精品欧美亚洲韩国日本 | 无人精品乱码一区二区三区 | 免费黄色在线网址 | 三级国产在线 | 亚洲欧美在线精品一区二区 |