第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學(xué)術(shù)咨詢

讓期刊論文更省時(shí)、省事、省心

基于人工智能的搜索引擎在數(shù)字圖書中的應(yīng)用

時(shí)間:2019年11月25日 分類:電子論文 次數(shù):

摘要:針對(duì)傳統(tǒng)搜索引擎算法搜索內(nèi)容需要占用大量人工勞動(dòng)進(jìn)行標(biāo)記,反饋信息和用戶搜索信息匹配度低,無法理解人類語言輸入等缺點(diǎn),文中結(jié)合自然語言算法對(duì)信息的整合過程及理解用戶語言過程進(jìn)行優(yōu)化。通過建立語料庫、提取文本特征信息和模型訓(xùn)練等方法,提

  摘要:針對(duì)傳統(tǒng)搜索引擎算法搜索內(nèi)容需要占用大量人工勞動(dòng)進(jìn)行標(biāo)記,反饋信息和用戶搜索信息匹配度低,無法理解人類語言輸入等缺點(diǎn),文中結(jié)合自然語言算法對(duì)信息的整合過程及理解用戶語言過程進(jìn)行優(yōu)化。通過建立語料庫、提取文本特征信息和模型訓(xùn)練等方法,提出了適用于智能搜索引擎的新型檢索算法。文中在CSI語料庫、AWS爬蟲數(shù)據(jù)等數(shù)據(jù)集中進(jìn)行了測試,測試結(jié)果表明,該算法只需進(jìn)行前期的人工干預(yù)和標(biāo)記,便可以自行搜集專業(yè)信息并自行展開機(jī)器學(xué)習(xí)和訓(xùn)練,從而降低維護(hù)及使用成本。

  關(guān)鍵詞:搜索引擎算法,人工智能,自然語言處理,文本特征提取

計(jì)算機(jī)科學(xué)與探索

  0引言

  搜索引擎是聯(lián)系用戶和數(shù)據(jù)庫信息的重要橋梁[1]。當(dāng)前各場景中的搜索引擎均面臨著挑戰(zhàn),對(duì)于數(shù)據(jù)庫中許多相近內(nèi)容及相關(guān)項(xiàng)目,搜索引擎該如何理解用戶需求,且準(zhǔn)確找到有用信息,是目前亟待解決的難題。在龐雜的交互信息中,用戶輸入描述不精確的情況下,如何對(duì)模糊語義進(jìn)行理解和解釋,并找出數(shù)據(jù)庫中關(guān)聯(lián)度最大的內(nèi)容,也是搜索引擎需要考慮的問題。

  近年來,對(duì)于搜索引擎算法的研究均是如何更好地組織文檔或網(wǎng)頁關(guān)鍵詞的排列關(guān)系、從屬關(guān)系,從而提升搜索效率[2-5];或是利用一些無監(jiān)督的機(jī)器學(xué)習(xí)算法對(duì)搜索內(nèi)容的相關(guān)程度進(jìn)行排序[6];此外,是對(duì)人類語義進(jìn)行研究,嘗試?yán)谜Z義信息進(jìn)行關(guān)鍵詞搜索[7]。人工智能深度學(xué)習(xí)算法在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理和游戲?qū)?zhàn)等領(lǐng)域有著明顯優(yōu)勢(shì)。

  而目前的搜索引擎算法存在維護(hù)成本高、信息檢索不準(zhǔn)確、無法理解人類的分類知識(shí)、無法分析用戶輸入的語義等一般算法無法高效解決的問題[8-9]。所以,利用深度學(xué)習(xí)算法的優(yōu)勢(shì),從而解決搜索引擎在語義理解方面的問題是一個(gè)有效途徑。

  1搜索引擎算法

  1.1算法原理

  搜索引擎能發(fā)揮基礎(chǔ)作用,基本由3個(gè)步驟構(gòu)成[10-11]:①發(fā)現(xiàn)網(wǎng)絡(luò)或數(shù)據(jù)庫中的信息,搜集對(duì)信息的描述;②對(duì)信息進(jìn)行提煉和分類,快速對(duì)信息進(jìn)行組織,建立索引庫;③搜索引擎的檢索模塊得到用戶的信息描述,整理后在索引中搜尋相同描述或相近的信息,得到庫中一系列信息與描述信息的相關(guān)性得分。最后,按照相關(guān)性返回給用戶。具體算法如下:①抓取網(wǎng)頁技術(shù)。利用人工或半自動(dòng)程序抓取數(shù)據(jù)庫中的信息。

  每個(gè)成熟的搜索引擎均有自動(dòng)抓取程序———爬蟲(spider)。爬蟲程序會(huì)利用網(wǎng)絡(luò)中的超鏈接進(jìn)行跳轉(zhuǎn),在每個(gè)網(wǎng)頁中收集有效信息,分析內(nèi)容并自動(dòng)記錄。②處理網(wǎng)頁內(nèi)容。網(wǎng)頁被抓取之后,不能直接處理復(fù)雜的網(wǎng)絡(luò)頁面。所以,需要預(yù)處理工作簡化網(wǎng)頁中的其他程序模塊。例如,網(wǎng)頁上的內(nèi)容多數(shù)為文字和圖片信息。

  對(duì)于文字信息先進(jìn)行關(guān)鍵字的提取,判斷哪些為可代表整個(gè)內(nèi)容的文字。然后建立索引,記錄到數(shù)據(jù)庫中。對(duì)于圖片要進(jìn)行分析,判斷其大致內(nèi)容。預(yù)處理工作還包括去除重復(fù)內(nèi)容、判斷網(wǎng)頁內(nèi)容、網(wǎng)絡(luò)內(nèi)容的重要程度、訪問量等。③展示檢索內(nèi)容。當(dāng)用戶輸入關(guān)鍵字時(shí),要理解關(guān)鍵詞并在索引中搜索相關(guān)信息,按照匹配程度和搜索網(wǎng)頁的熱度進(jìn)行排序。此外,還會(huì)顯示被索引網(wǎng)站的縮略圖以供用戶選擇。

  1.2搜索引擎算法

  ①目錄式引擎算法。目錄式搜索是先搜集信息,搜索信息的方式可以半自動(dòng)化完成。然后,由引擎編輯人員將瀏覽后的信息編輯成摘要形式,將資料內(nèi)容高度概括后存儲(chǔ)為多個(gè)標(biāo)簽信息,由此標(biāo)簽就可將電子圖書館中的資料分成多個(gè)分類。當(dāng)用戶使用時(shí)輸入某個(gè)關(guān)鍵詞,搜索模塊只需要將標(biāo)簽相同或相近的信息返回給用戶,然后再由用戶自行挑選。較多目錄也可以由用戶自行描述并上傳,編輯人員采納后可以應(yīng)用于引擎的查找。此類引擎算法的人工標(biāo)記過程利用了大量的人力物力進(jìn)行總結(jié)和標(biāo)記,雖總結(jié)信息準(zhǔn)確、查詢的質(zhì)量高,但維護(hù)工作量較大。編輯需要的人工手段過多,在信息量劇增的時(shí)代背景下有著絕對(duì)的劣勢(shì)。

  ②基于機(jī)器人的搜索引擎。搜索引擎尋找信息時(shí)利用爬蟲算法以某種策略尋找網(wǎng)頁,并摘取網(wǎng)頁關(guān)鍵字等信息,建立索引。搜索引擎定期的尋找網(wǎng)絡(luò)資源,其搜索面廣、信息量大、更新迅速。但會(huì)返回?zé)o效信息,浪費(fèi)空間資源,且信息篩選時(shí)間較長,因此用戶體驗(yàn)感較差。

  ③元搜索引擎。元搜索是一種全局調(diào)用工具,在用戶輸入搜索內(nèi)容時(shí),根據(jù)內(nèi)容調(diào)用合適的搜索引擎進(jìn)行搜索,其通過一個(gè)友好的用戶界面統(tǒng)一其他的引擎搜索內(nèi)容。元搜索的覆蓋面大、搜索效果好,但因其實(shí)質(zhì)是調(diào)用其他獨(dú)立的搜素引擎,所以調(diào)用不準(zhǔn)時(shí)會(huì)有負(fù)面效果。

  2基于人工智能的搜索引擎算法

  2.1搜索引擎的缺陷

  隨著數(shù)據(jù)量的增長,大量系統(tǒng)中均需要搜索引擎來建立快速索引機(jī)制,電子圖書的管理亦是如此。電子圖書數(shù)據(jù)量大,容易對(duì)其進(jìn)行歸類,收集也相對(duì)簡單,但搜索引擎仍有一些問題:①搜索的精細(xì)化程度較低。搜索多個(gè)條件時(shí)彈出的信息不夠精確,搜索條件過于細(xì)化時(shí)無法搜索到相近意思的內(nèi)容。②搜索時(shí)多個(gè)關(guān)鍵詞的重要程度顯然是不同的。搜索程序不能準(zhǔn)確判斷,搜索到的內(nèi)容不是語義中的重要方面。

  ③無法理解人類意圖,只能按照人類數(shù)據(jù)尋找對(duì)應(yīng)信息。例如,其無法在庫中搜索到解決具體問題的專業(yè)知識(shí),對(duì)非專業(yè)人員不適用。④無法搜索到某個(gè)詞的相關(guān)聯(lián)內(nèi)容,例如書籍的作者、出版信息、專業(yè)門類等,此類信息必須用戶進(jìn)一步搜索才能得到。基于以上幾點(diǎn)問題,人工智能算法在用戶的語義理解和相關(guān)詞條的關(guān)聯(lián)方面均有著卓越的性能,可針對(duì)性的解決這些缺陷。

  2.2自然語言處理的優(yōu)勢(shì)

  自然語言處理是人工智能中的重要分支,其主要研究如何用智能、高效的方式對(duì)文本數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)[12-14]。自然語言處理核心目的是令機(jī)器理解人類語義,懂得分清人類語言分布模式和人類意愿。在用戶進(jìn)行搜索時(shí),輸入的內(nèi)容中包含主要信息和描述性詞語。若利用常規(guī)搜索算法,則搜出的信息將會(huì)盡量包含輸入的詞匯。但

  當(dāng)輸入較為復(fù)雜的語義時(shí),傳統(tǒng)算法無法正常的工作。例如,用戶輸入“在自然語言處理中的關(guān)鍵性技術(shù)”此類詞條時(shí),搜索列表中匹配度最高的會(huì)是“自然”、“自然語言處理”、“技術(shù)”等關(guān)鍵詞匯,但用戶顯然想搜索的主要語義是“自然語言處理”和“關(guān)鍵技術(shù)”兩者。

  而利用機(jī)器學(xué)習(xí)方法,算法會(huì)通過對(duì)現(xiàn)有詞庫的學(xué)習(xí),分析出人類語言的分布規(guī)律,其會(huì)通過超參數(shù)的學(xué)習(xí)“記住”語言中“在”、“中”等語義。然后實(shí)現(xiàn)對(duì)一句話中信息的分割和評(píng)分,按照重要程度進(jìn)行重排后進(jìn)行搜索,其效率較高。機(jī)器學(xué)習(xí)算法能將上句話中的“自然語言處理”和“技術(shù)”同時(shí)反饋給查詢接口,由此搜索出的內(nèi)容將更貼近實(shí)際需求。

  2.3自然語言處理算法

  對(duì)搜索引擎缺陷的分析可知,傳統(tǒng)搜索算法的問題在于語義理解。此方面,深度學(xué)習(xí)算法具有較大優(yōu)勢(shì)。以下介紹自然語言處理在實(shí)際中的訓(xùn)練和應(yīng)用[15-17]。

  2.3.1文本信息預(yù)處理

  文本中的信息大多是冗余的,在人類語言中有大量指示事物狀態(tài)或功能的詞,或是對(duì)相同動(dòng)作有著不同的描述方式。通常會(huì)通過4種方式進(jìn)行文本預(yù)處理:①去除噪聲。語句中存在沒有語義的詞匯或標(biāo)點(diǎn),先將此類文本去除。建立1個(gè)噪聲詞典,在計(jì)算前對(duì)輸入逐一比對(duì),消除噪聲。②對(duì)詞語進(jìn)行規(guī)范。輸入的多個(gè)單詞是表示同一種意義,將此類衍生詞更改為其本源的詞匯是必要的。其為重要步驟,此步將原本的高維度特征轉(zhuǎn)換為了低維特征,降低詞匯的多樣性,有利于機(jī)器學(xué)習(xí)中因多樣性過高而無法收斂的問題。

  ③對(duì)象標(biāo)準(zhǔn)化。輸入中會(huì)出現(xiàn)未在標(biāo)準(zhǔn)字庫中出現(xiàn)的詞語,無法被算法所識(shí)別,所以對(duì)判斷會(huì)出現(xiàn)干擾。對(duì)象標(biāo)準(zhǔn)化就是將拼湊、縮略或編造的短語轉(zhuǎn)為意義相同或相近的標(biāo)準(zhǔn)詞匯。④其他方法。例如單詞拼寫檢查,語法檢查等。

  2.3.2文本特征提取

  標(biāo)準(zhǔn)化后,文字信息需通過各種轉(zhuǎn)化技術(shù)轉(zhuǎn)為特征向量。根據(jù)不同用法,轉(zhuǎn)換方式也不盡相同。在數(shù)字圖書的檢索方面,常用的是特征統(tǒng)計(jì)方法。本文介紹的特征統(tǒng)計(jì)方法是詞頻-逆文檔頻率模型[16-17](TermFrequency-InverseDocumentFrequency)。TF-IDF模型常用于文檔檢索、信息搜索等應(yīng)用,此目的在于基于每種標(biāo)準(zhǔn)詞匯在文檔中出現(xiàn)的頻率,將文檔轉(zhuǎn)換為數(shù)字表示的向量模型。

  詞頻是指某個(gè)詞在某篇文章中出現(xiàn)的頻率,即某單詞出現(xiàn)次數(shù)除以總詞量。反文檔頻率是指噪聲較多時(shí),為防止誤將關(guān)鍵詞當(dāng)作噪聲去除而設(shè)計(jì)的識(shí)別方法。例如,某個(gè)詞在文章中利用頻次較高,被認(rèn)為不足以描述整個(gè)文章的特征。所以,利用反文檔頻率來估計(jì)詞的“獨(dú)特性”。反文檔頻率算法是語料庫文章總數(shù)除以包含某個(gè)詞的文章數(shù)。得到向量后,就可用特征方式描述一篇文檔。

  2.3.3文本分類

  文本分類是自然語言處理的經(jīng)典問題之一,主要目的在于分類文檔的用途、內(nèi)容等。首先,文本在輸入后其特征會(huì)被創(chuàng)建;然后,機(jī)器學(xué)習(xí)算法從這些特征學(xué)習(xí)一組參數(shù);之后,使用學(xué)習(xí)到的機(jī)器學(xué)習(xí)模型對(duì)新文本做預(yù)測。文本分類較大程度上依賴于特征的質(zhì)量與數(shù)量。當(dāng)然,在使用任何機(jī)器學(xué)習(xí)訓(xùn)練模型時(shí),通常引入越多的訓(xùn)練數(shù)據(jù)會(huì)得到更好的訓(xùn)練超參數(shù)。

  3數(shù)字圖書搜索引擎的應(yīng)用與測試

  本文設(shè)計(jì)的數(shù)字圖書搜索系統(tǒng)包括用戶查詢系統(tǒng)、語料庫、數(shù)據(jù)庫和本文提出的一種新的語義理解系統(tǒng)。訓(xùn)練并建立人工智能搜索引擎的步驟大致如下:①利用智能搜索技術(shù)對(duì)數(shù)字圖書數(shù)據(jù)庫中的圖像文字進(jìn)行定期的搜索與分析;②接收信息后利用對(duì)文本信息的預(yù)處理方式去除其中無用鏈接和文字信息;③對(duì)每個(gè)文檔做特征提取,建立語料庫,收集關(guān)鍵詞匯,收集時(shí)先以詞頻作為依據(jù),或利用成熟的語料庫作為先驗(yàn)再收集;④利用TF-IDF模型對(duì)文檔進(jìn)行特征的轉(zhuǎn)換,得到每篇文檔的數(shù)字特征信息,將其作為訓(xùn)練樣本積累下來;⑤利用訓(xùn)練樣本進(jìn)行訓(xùn)練分類,得到關(guān)鍵詞條的分類模型,分類依據(jù)應(yīng)由專業(yè)人員檢查、標(biāo)注。

  訓(xùn)練模型穩(wěn)定后,其可以利用模型對(duì)新的數(shù)字文檔資料進(jìn)行預(yù)測分類。建立索引庫后,就基本建立起了一個(gè)有預(yù)測能力的搜索引擎。當(dāng)用戶發(fā)起搜索時(shí),利用模型判斷用戶關(guān)鍵詞,并與建立起的索引庫進(jìn)行對(duì)比,最后得到相關(guān)信息的羅列。

  較傳統(tǒng)的搜索引擎,利用人工智能算法可以降低人工標(biāo)注難度且降低維護(hù)成本,實(shí)現(xiàn)自動(dòng)獲取并判斷爬到的數(shù)字圖書的類別。在用戶輸入時(shí),可分析用戶所需求的資料,從而提高用戶的搜索質(zhì)量。在實(shí)驗(yàn)中,利用已有的公開數(shù)據(jù)集CSI語料庫和AWS爬蟲數(shù)據(jù),測試了普通搜索程序、聚類算法、K均值算法以及本文的TF-IDF算法的準(zhǔn)確度和運(yùn)行速度。

  由普通搜索和TF-IDF搜索等算法對(duì)兩種數(shù)據(jù)集的檢索準(zhǔn)確度和運(yùn)行速度結(jié)果可看出,本文所設(shè)計(jì)的算法在準(zhǔn)確度與運(yùn)行速度方面相較于傳統(tǒng)算法均有較大的提高。為了進(jìn)一步驗(yàn)證該系統(tǒng)的實(shí)用性和可靠性,除上述對(duì)已有的公開數(shù)據(jù)集進(jìn)行測試外,將該搜索系統(tǒng)運(yùn)用在某高校圖書館電子圖書數(shù)據(jù)庫中,進(jìn)行檢索結(jié)果測試。并與原有的搜索方式相比。

  由結(jié)果可看出,利用本文所設(shè)計(jì)的人工智能搜索引擎通過關(guān)鍵詞搜索所得到的結(jié)果準(zhǔn)確率,在各種數(shù)字圖書類別檢索中均高于普通匹配搜索算法,在平均準(zhǔn)確率方面可達(dá)到90.97%。雖該方法需要進(jìn)行長時(shí)間訓(xùn)練,但算法理解能力和正確率均可達(dá)到當(dāng)前先進(jìn)水平,且能夠充分滿足數(shù)字圖書的檢索需要。

  4結(jié)束語

  本文討論了將機(jī)器學(xué)習(xí)中的自然語言處理技術(shù)應(yīng)用于數(shù)字圖書館的搜索引擎。針對(duì)數(shù)字圖書搜索的具體情況,將自然語言處理中的特征提取算法和應(yīng)用算法嫁接在搜索引擎上,可達(dá)到降低人工標(biāo)注成本、給用戶更好的搜索體驗(yàn)等目的。傳統(tǒng)的搜索引擎算法已不能滿足當(dāng)前大數(shù)據(jù)的時(shí)代背景,本文提出的方法是未來專業(yè)搜索引擎研究的方向之一。

  然而,現(xiàn)如今的自然語言處理還存在一些弊端。例如,未達(dá)到能在和人類交談的過程中了解人類需要的任務(wù),無法在網(wǎng)絡(luò)資源中自動(dòng)搜索需要內(nèi)容。因此,仍需要建立更加廣泛的索引庫和數(shù)據(jù)庫以供快速搜索,這有待于進(jìn)一步的深入研究。

  參考文獻(xiàn):

  [1]姜韶增.互聯(lián)網(wǎng)搜索引擎搜索策略和算法的研究[D].蘭州:蘭州交通大學(xué),2015.

  [2]馬安進(jìn).個(gè)性化搜索引擎排序算法的研究[D].西安:西安理工大學(xué),2016.

  [3]胡存剛,程瑩.基于粒子群算法的大數(shù)據(jù)智能搜索引擎的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(12):14-17.

  [4]黃劍,李明奇,郭文強(qiáng).并行Fp-growth算法在搜索引擎中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2015,42(S1):459-461,483

  人工智能論文投稿刊物:計(jì)算機(jī)科學(xué)與探索是由中國電子科技集團(tuán)公司主管、華北計(jì)算技術(shù)研究所主辦的國內(nèi)外公開發(fā)行的計(jì)算機(jī)學(xué)報(bào)級(jí)高級(jí)學(xué)術(shù)期刊,中國計(jì)算機(jī)學(xué)會(huì)會(huì)刊。

主站蜘蛛池模板: 啪在线观看 | 一级黄色a级片 | 日本在观线免费观看 | 婷婷色在线视频 | 国产夜色视频 | 一级网站在线观看 | 成人一区专区在线观看 | 亚洲小视频在线观看 | 91短视频在线免费观看 | 婷婷六月在线 | 操久在线 | 免费一级毛片在线播放不收费 | 免费一级美国片在线观看 | 一级待一黄aaa大片在线还看 | 亚洲欧美另类在线 | 青青热久久国产久精品 | 国产区成人综合色在线 | 国产精品久久久天天影视香蕉 | 黄色片网站日本 | 一级做a爰片性色毛片新版的 | 久草在线观看福利视频 | 一级毛片不卡片免费观看 | 色综合久久中文 | 色噜噜五月综合激情久久爱 | 国产成人精选视频69堂 | 精品一区二区三区四区乱码90 | 草莓榴莲向日葵十八岁全微糖 | 成年人视频黄色 | 伊人久久大杳蕉综合大象 | 国产成人在线精品 | 另类 欧美 视频二区 | 综合久久 五十路 二区 | 国产精品亚洲片在线不卡 | 91这里只有精品 | 国产男女交性视频播放 | 欧美一区在线观看视频 | 中文字幕日韩在线一区国内 | 免费看黄色小视频 | 久久99精品久久久久久青青日本 | 永久免费aavv视频播放 | 国产亚洲一区在线 |