第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學(xué)術(shù)咨詢

讓期刊論文更省時(shí)、省事、省心

計(jì)算機(jī)科學(xué)剖析數(shù)據(jù)挖掘中的軟計(jì)算方法

時(shí)間:2015年04月02日 分類:推薦論文 次數(shù):

計(jì)算機(jī)科學(xué)剖析數(shù)據(jù)挖掘中的軟計(jì)算方法 推薦本站最優(yōu)秀期刊: 《 計(jì)算機(jī)科學(xué) 》 由國家科技部主管,西南信息中心主辦,系中文科技核心期刊、中國科技論文統(tǒng)計(jì)與分析用期刊、中國科學(xué)引文數(shù)據(jù)庫來源期刊、中國期刊方陣雙效期刊。主要報(bào)導(dǎo)國內(nèi)外計(jì)算機(jī)科學(xué)與技

  計(jì)算機(jī)科學(xué)剖析數(shù)據(jù)挖掘中的軟計(jì)算方法 推薦本站最優(yōu)秀期刊:計(jì)算機(jī)科學(xué)由國家科技部主管,西南信息中心主辦,系“中文科技核心期刊”、“中國科技論文統(tǒng)計(jì)與分析用期刊”、“中國科學(xué)引文數(shù)據(jù)庫來源期刊”、“中國期刊方陣雙效期刊”。主要報(bào)導(dǎo)國內(nèi)外計(jì)算機(jī)科學(xué)與技術(shù)的發(fā)展動態(tài),涉及面廣的方法論與技術(shù),和反映新苗頭、能起承先啟后作用的研究成果。內(nèi)容涉及程序理論、計(jì)算機(jī)軟件、計(jì)算機(jī)網(wǎng)絡(luò)與信息、數(shù)據(jù)庫、人工智能、人機(jī)界面、國際會議、應(yīng)用等。

  摘 要 文章對數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了綜述。對模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗集等軟計(jì)算方法,以及它們的混合算法的特點(diǎn)進(jìn)行了分析,并對它們在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。

  關(guān)鍵詞 計(jì)算機(jī)科學(xué),數(shù)據(jù)挖掘,軟計(jì)算,模糊邏輯,遺傳算法,神經(jīng)網(wǎng)絡(luò),粗集

  1 引言

  在過去的數(shù)十年中,隨著計(jì)算機(jī)軟件和硬件的發(fā)展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高。許多領(lǐng)域的大量數(shù)據(jù)集中或分布的存儲在數(shù)據(jù)庫中[1][2],這些領(lǐng)域包括商業(yè)、金融投資業(yè)、生產(chǎn)制造業(yè)、醫(yī)療衛(wèi)生、科學(xué)研究,以及全球信息系統(tǒng)的萬維網(wǎng)。數(shù)據(jù)存儲量的增長速度是驚人的。大量的、未加工的數(shù)據(jù)很難直接產(chǎn)生效益。這些數(shù)據(jù)的真正價(jià)值在于從中找出有用的信息以供決策支持。在許多領(lǐng)域,數(shù)據(jù)分析都采用傳統(tǒng)的手工處理方法。一些分析軟件在統(tǒng)計(jì)技術(shù)的幫助下可將數(shù)據(jù)匯總,并生成報(bào)表。隨著數(shù)據(jù)量和多維數(shù)據(jù)的進(jìn)一步增加,高達(dá)109的數(shù)據(jù)庫和103的多維數(shù)據(jù)庫已越來越普遍。沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。所有這些顯示我們需要智能的數(shù)據(jù)分析工具,從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

  數(shù)據(jù)挖掘就是指從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。包括存儲和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過程中支持人機(jī)交互的模式[3]。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識別、統(tǒng)計(jì)學(xué)、模糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法,已成功應(yīng)用在超市、金融、銀行[4]、生產(chǎn)企業(yè)[5]和電信,并有很好的表現(xiàn)。

  軟計(jì)算是能夠處理現(xiàn)實(shí)環(huán)境中一種或多種復(fù)雜信息的方法集合。軟計(jì)算的指導(dǎo)原則是開發(fā)利用那些不精確性、不確定性和部分真實(shí)數(shù)據(jù)的容忍技術(shù),以獲得易處理、魯棒性好、低求解成本和更好地與實(shí)際融合的性能。通常,軟計(jì)算試圖尋找對精確的或不精確表述問題的近似解[6]。它是創(chuàng)建計(jì)算智能系統(tǒng)的有效工具。軟計(jì)算包括模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗集理論。

  2 數(shù)據(jù)挖掘中的軟計(jì)算方法

  目前,已有多種軟計(jì)算方法被應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)中,來處理一些具有挑戰(zhàn)性的問題。軟計(jì)算方法主要包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些方法各具優(yōu)勢,它們是互補(bǔ)的而非競爭的,與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比,它能使系統(tǒng)更加智能化,有更好的可理解性,且成本更低。下面主要對各種軟計(jì)算方法及其混合算法做系統(tǒng)性的闡述,并著重強(qiáng)調(diào)它們在數(shù)據(jù)挖掘中的應(yīng)用情況。

  2.1 模糊邏輯

  模糊邏輯是1965年由澤德引入的,它為處理不確定和不精確的問題提供了一種數(shù)學(xué)工具。模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法,模糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域也占有重要地位。從數(shù)據(jù)庫中挖掘知識主要考慮的是發(fā)現(xiàn)有興趣的模式并以簡潔、可理解的方式描述出來。模糊集可以對系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡和過濾,提供了在高抽象層處理的便利。同時(shí),數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常面對多種類型的數(shù)據(jù),即符號數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Nauck[7]研究了新的算法,可以從同時(shí)包含符號數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)中生成混合模糊規(guī)則。數(shù)據(jù)挖掘中模糊邏輯主要應(yīng)用于以下幾個(gè)方面:

  (1)聚類。將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程被稱為聚類。聚類分析是一種重要的人類行為,通過聚類,人能夠識別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的關(guān)系。模糊集有很強(qiáng)的搜索能力,它對發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會幫助發(fā)現(xiàn)定性或半定性數(shù)據(jù)的依賴度。在數(shù)據(jù)挖掘中,這種能力可以幫助阻止搜到無用和微不足道的知識。研究者為此發(fā)展了模糊聚類算法,并得到了廣泛應(yīng)用[8]。在高維數(shù)據(jù)挖掘中有太多的屬性要考慮,因此知識簡約就非常的必要。屬性聚類的實(shí)質(zhì)就是知識簡約,所謂知識約簡,就是在保持知識庫的分類或者決策能力不變的條件下,刪除不重要的或冗余的知識,最小約簡(含有最小屬性)是人們所期望的,且約簡結(jié)果是不確定的。所以模糊聚類成為知識簡約的有力工具。

  (2)關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘重要的一點(diǎn)是關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),關(guān)聯(lián)規(guī)則挖掘是尋找給定數(shù)據(jù)集中屬性間的關(guān)聯(lián)。其中,布爾關(guān)聯(lián)規(guī)則考慮的是關(guān)聯(lián)的屬性在與不在的二維特征,概化關(guān)聯(lián)規(guī)則描述的是屬性的分層關(guān)系,量化關(guān)聯(lián)規(guī)則描述的是量化的屬性(既離散化的屬性)間的關(guān)聯(lián)[9]。由于使用模糊概念表示的規(guī)則更符合人的思維和表達(dá)習(xí)慣,增強(qiáng)了規(guī)則的可理解性,所以模糊技術(shù)已成為數(shù)據(jù)挖掘系統(tǒng)中的關(guān)鍵技術(shù)。文獻(xiàn)[10]中用模糊分類開拓了概化關(guān)聯(lián)規(guī)則。

  (3)數(shù)據(jù)概化。概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要部分之一。它將大的數(shù)據(jù)集從較低的概念層抽象到較高的概念層,用可理解的信息來表達(dá)數(shù)據(jù)庫中最重要的部分,并提供給用戶。

  大數(shù)據(jù)集的語言概化通過有效的程度來獲得,參考的標(biāo)準(zhǔn)內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的語言概化并不瑣碎,卻很人性化。實(shí)際上,它并不能自動地進(jìn)行概化,需要人的操作。Kacprzyk和Zadrozny[11]發(fā)展了功能依賴度,語言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統(tǒng)從數(shù)據(jù)庫中獲得記錄,并計(jì)算每個(gè)概化的有效性,最后,選擇最適合的語言概化。此方法通過網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。模糊值、模糊聯(lián)系和語言量都通過JAVA來定義。

  (4)Web應(yīng)用。通過Web日志的挖掘,來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析Web日志記錄中的規(guī)律,可以識別電子商務(wù)的潛在客戶,增強(qiáng)對最終用戶的Internet信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。還可以進(jìn)一步獲得用戶訪問的附加信息(包括Web服務(wù)器緩沖區(qū)中用戶瀏覽Web頁面的序列等),以便于做更為詳細(xì)的Web日志分析。如通過用戶訪問模式的學(xué)習(xí)改進(jìn)其自身的Web站點(diǎn),有助于建立針對個(gè)體用戶的定制Web服務(wù)。為了挖掘出較完全的興趣模式, 吳瑞[12]提出一種新的結(jié)構(gòu)類型--FLAAT,它可發(fā)現(xiàn)那些被忽略的用戶瀏覽偏愛路徑。同時(shí)引進(jìn)模糊集來處理停留在網(wǎng)頁上的時(shí)間,以形成語義術(shù)語使挖掘出的用戶瀏覽偏愛路徑更自然、更易理解。算法能準(zhǔn)確地反映用戶的瀏覽興趣。

  (5)圖像檢索。隨著近來由多種媒體數(shù)據(jù)構(gòu)成的多媒體信息倉庫數(shù)據(jù)的增加,基于內(nèi)容的圖像檢索開始活躍在這個(gè)領(lǐng)域。和傳統(tǒng)數(shù)據(jù)庫中基于精確匹配的關(guān)鍵字來檢索信息不同,基于內(nèi)容的圖像檢索系統(tǒng)的信息是一個(gè)圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據(jù)人的主觀性所決定,因此很大程度上帶有模糊性。對于圖像紋理,習(xí)慣于用“很粗”、“中等”、“弱”這樣的一些模糊概念來描述;形狀一般用“幾何形的”、“立體形的”或“似長方形的”、“正方形的”等概念描述;顏色特征通常用“很艷”、“一般”、 “暗淡”或“大紅”、“紫紅”、“紅”這樣的模糊概念來描述。所以基于內(nèi)容是圖像檢索是基于圖像的相似特征來檢索的。

  2.2 神經(jīng)網(wǎng)絡(luò)

  數(shù)據(jù)挖掘的困難主要存在于三個(gè)方面:首先,巨量數(shù)據(jù)集的性質(zhì)往往非常復(fù)雜,非線性、時(shí)序性與噪音普遍存在;其次,數(shù)據(jù)分析的目標(biāo)具有多樣性,而復(fù)雜目標(biāo)無論在表述還是在處理上均與領(lǐng)域知識有關(guān);第三,在復(fù)雜目標(biāo)下,對巨量數(shù)據(jù)集的分析,目前還沒有現(xiàn)成的且滿足可計(jì)算條件的一般性理論與方法。研究者們主要是將符號型機(jī)器學(xué)習(xí)方法與數(shù)據(jù)庫技術(shù)相結(jié)合,但由于真實(shí)世界的數(shù)據(jù)關(guān)系相當(dāng)復(fù)雜,非線性程度相當(dāng)高,而且普遍存在著噪音數(shù)據(jù),因此這些方法在很多場合都不適用。

  因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問題,在數(shù)據(jù)挖掘的初期并不看好,然而,神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性,以及它對未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的能力,非常適合解決數(shù)據(jù)挖掘中存在的以上問題,因此近年來越來越受到人們的關(guān)注。

  規(guī)則抽取方法是解決“黑箱問題”的有效手段。神經(jīng)網(wǎng)絡(luò)規(guī)則抽取的研究最早開始于80年代末。1988年,Gallant[13]設(shè)計(jì)了一個(gè)可以用if-then規(guī)則解釋推理結(jié)論的神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)。根據(jù)設(shè)計(jì)思想的不同,目前的規(guī)則提取方法大致可以分成兩大類,即基于結(jié)構(gòu)分析的方法和基于性能分析的方法。

  基于結(jié)構(gòu)分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法把規(guī)則抽取視為一個(gè)搜索過程,其基本思想是把已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)映射成對應(yīng)的規(guī)則。由于搜索過程的計(jì)算復(fù)雜度和神經(jīng)網(wǎng)絡(luò)輸入分量之間呈指數(shù)級關(guān)系,當(dāng)輸入分量很多時(shí),會出現(xiàn)組合爆炸。因此,此類算法一般采用剪枝聚類等方法來減少網(wǎng)絡(luò)中的連接以降低計(jì)算復(fù)雜度。RX算法[14]首先用權(quán)衰減方法構(gòu)造BP網(wǎng)絡(luò)(該網(wǎng)絡(luò)中連接權(quán)的大小反映了連接的重要程度),然后對網(wǎng)絡(luò)進(jìn)行修剪,在預(yù)測精度不變的情況下刪除次要連接,在對網(wǎng)絡(luò)進(jìn)行充分簡化的條件下,對隱藏層結(jié)點(diǎn)的激活值進(jìn)行聚類,根據(jù)不同的隱藏層結(jié)點(diǎn)激活值用窮舉搜索的辦法來尋找從輸入層到隱藏層和從隱藏層到輸出層的規(guī)則.

  與基于結(jié)構(gòu)分析的方法不同,基于性能分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法并不對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和搜索,而是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)整體來處理,這類方法更注重的是抽取出的規(guī)則在功能上對網(wǎng)絡(luò)的重現(xiàn)能力,即產(chǎn)生一組可以替代原網(wǎng)絡(luò)的規(guī)則。較有代表性的算法是Sestito等人提出的相似權(quán)值法[15],這種方法將輸出節(jié)點(diǎn)添加到輸入層去與輸入節(jié)點(diǎn)進(jìn)行比較。1994年,Craven和Shavlik[16]為神經(jīng)網(wǎng)絡(luò)規(guī)則抽取任務(wù)下了一個(gè)定義:給定一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及用于其訓(xùn)練的訓(xùn)練集,為網(wǎng)絡(luò)產(chǎn)生一個(gè)簡潔而精確的符號描述。在文獻(xiàn)[16]的基礎(chǔ)上,1996年,Craven和Shavlik[17]提出了TREPAN算法。該算法首先用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對示例集進(jìn)行分類,然后將該集合作為訓(xùn)練集提供給決策樹學(xué)習(xí)算法,從而構(gòu)造出一棵與原網(wǎng)絡(luò)功能接近的、使用MOFN表達(dá)式作為內(nèi)部劃分的決策樹。TREPAN的計(jì)算量較低。1997年,Craven和Shavlik[18]將TREPAN用于一個(gè)噪音時(shí)序任務(wù),即美元–馬克匯率預(yù)測,取得了比現(xiàn)有方法更好的效果。

  2.3 遺傳算法

  遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。它是美國 Michigan大學(xué)的Holland教授于1975年首先提出的。遺傳算法中包含了5個(gè)基本要素:①參數(shù)編碼;②初始群體的設(shè)定;③適應(yīng)度函數(shù)的設(shè)計(jì);④遺傳操作設(shè)計(jì);⑤控制參數(shù)設(shè)定。遺傳算法具有十分頑強(qiáng)的魯棒性、自適應(yīng)性,其在解決大空間、多峰值、非線性、全局優(yōu)化等復(fù)雜度高的問題時(shí)具有獨(dú)特的優(yōu)勢。因此,遺傳算法在數(shù)據(jù)挖掘技術(shù)越來越顯示出其重要的地位。數(shù)據(jù)挖掘最初應(yīng)用進(jìn)化計(jì)算從給定的目標(biāo)集中挖掘有趣的規(guī)則[19],其強(qiáng)調(diào)從面向?qū)ο蟮臄?shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)集的共有特性。遺傳算法也應(yīng)用于其他方面如從多媒體數(shù)據(jù)庫中挖掘多媒體數(shù)據(jù)。遺傳算法在數(shù)據(jù)挖掘中主要應(yīng)用于數(shù)據(jù)回歸和關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。

  (1)回歸。除了發(fā)現(xiàn)可解釋的模式之外,數(shù)據(jù)挖掘的另外一個(gè)重要的任務(wù)就是預(yù)測,即通過數(shù)據(jù)庫中的一些變量發(fā)掘其超未來的趨勢值。傳統(tǒng)的線性回歸需要先假設(shè)這些屬性間沒有相關(guān)性,而遺傳算法則可以很好的處理有相關(guān)性的變量。Xu[20]曾設(shè)計(jì)了一個(gè)多輸入單輸出的系統(tǒng),應(yīng)用遺傳算法從訓(xùn)練數(shù)據(jù)集中進(jìn)行非線性多元回歸。

  (2)關(guān)聯(lián)規(guī)則。遺傳學(xué)習(xí)首先創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體。每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示的if-than類型。通過全局搜索,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體。遺傳算法可以單獨(dú)用于數(shù)據(jù)倉庫中關(guān)聯(lián)規(guī)則的挖掘,還可以和其他的數(shù)據(jù)挖掘技術(shù)相結(jié)合,例如,用于進(jìn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以得到結(jié)構(gòu)簡單、性能優(yōu)良的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[21];用于特征子集選擇[22];應(yīng)用于決策樹、分類器和模糊規(guī)則的獲取等等。

  2.4 粗集

  粗集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理含糊和不確定問題的新型數(shù)學(xué)工具。粗集理念基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立。給定現(xiàn)實(shí)世界數(shù)據(jù),通常有些類不能被可用的屬性區(qū)分。粗集可以用來近似定義這種類,將問題的數(shù)據(jù)集進(jìn)行劃分,然后對劃分的每一部分確定其對某一概念的支持程度:即肯定支持此概念,肯定不支持此概念,并分別用下近似和上近似集合來表示為正域、負(fù)域。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識和潛在的規(guī)律。同時(shí),粗集理論在處理大數(shù)據(jù)量,消除冗余信息等方面有著良好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、規(guī)則生成等方面。

  (1)數(shù)據(jù)約簡。粗集理論可提供有效方法用于對信息系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡在數(shù)據(jù)挖掘系統(tǒng)的預(yù)處理階段,通過粗集理論刪除數(shù)據(jù)中的冗余信息(屬性、對象以及屬性值等),可大大提高系統(tǒng)的運(yùn)算速度。文獻(xiàn)[23]使用粗集方法對信息系統(tǒng)進(jìn)行屬性及屬性域的約簡,然后使用神經(jīng)網(wǎng)絡(luò)對約簡后的數(shù)據(jù)進(jìn)行分類,從而在網(wǎng)絡(luò)分類精度沒有明顯下降的前提下使網(wǎng)絡(luò)的學(xué)習(xí)速度提高到約簡前的4.72倍。

  (2)規(guī)則抽取。與其它方法(如神經(jīng)網(wǎng)絡(luò))相比,使用粗集理論生成規(guī)則是相對簡單和直接的,信息系統(tǒng)中的每一個(gè)對象既對應(yīng)一條規(guī)則。粗集方法生成規(guī)則的一般步驟為:①得到條件屬性的一個(gè)約簡,刪去冗余屬性;②冊去每條規(guī)則的冗余屬性值;③對剩余規(guī)則進(jìn)行合并目前己經(jīng)產(chǎn)生了許多基于粗集理論的方法用于從信息系統(tǒng)中抽取規(guī)則[ 24]。

  粗集理論存在對錯誤描述的確定性機(jī)制過于簡單,而且在約簡的過程中缺乏交互驗(yàn)證功能,因此,粗集理論與其它方法如神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊數(shù)學(xué)、決策樹等相結(jié)合可以發(fā)揮各自的優(yōu)勢,大大增強(qiáng)數(shù)據(jù)挖掘的效率。文獻(xiàn)[25]提出了一種融合粗集理論和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘新方法,應(yīng)用于大型數(shù)據(jù)庫的分類規(guī)則挖掘。其主要思想是首先由粗糙集理論對數(shù)據(jù)庫進(jìn)行初步約簡,然后借助于神經(jīng)網(wǎng)絡(luò)在自學(xué)習(xí)過程中完成對數(shù)據(jù)庫的進(jìn)一步屬性約簡,并過濾數(shù)據(jù)中的噪聲數(shù)據(jù),最后由粗糙集理論對約簡后的數(shù)據(jù)庫進(jìn)行規(guī)則抽取。粗集理論的使用提高了系統(tǒng)的運(yùn)算速度,同時(shí)神經(jīng)網(wǎng)絡(luò)則使產(chǎn)生的規(guī)則集泛化能力提高。

  2.5 混合方法

  綜合軟計(jì)算的主要算法可產(chǎn)生在并行化、容錯、自適應(yīng)性和不定性管理方面更好的系統(tǒng)。混合系統(tǒng)可使許多應(yīng)用中的自動化自適應(yīng)系統(tǒng)成為現(xiàn)實(shí)。模糊系統(tǒng)的推理能力,當(dāng)與神經(jīng)網(wǎng)絡(luò)和遺傳算法的學(xué)習(xí)能力結(jié)合時(shí),導(dǎo)致得到體現(xiàn)合理有效的認(rèn)識系統(tǒng)(可學(xué)習(xí)和推理的系統(tǒng))的新產(chǎn)品和新過程。Banerjee[25]利用粗糙集、神經(jīng)網(wǎng)絡(luò)和模糊邏輯相結(jié)合的方法設(shè)計(jì)了數(shù)據(jù)挖掘系統(tǒng),其中用粗糙集方法在決策表中進(jìn)行約簡。而用模糊集方法挖掘出未經(jīng)加工的知識,最后由神經(jīng)網(wǎng)絡(luò)根據(jù)依賴度進(jìn)行取舍。

  3 結(jié)束語

  目前,數(shù)據(jù)挖掘中算法和可視化的研究越來越顯得重要。因?yàn)閺臄?shù)據(jù)庫中很容易就可以發(fā)現(xiàn)大量的模式,而這些模式中很多是很顯而易見的、冗余的、無用的,或是對用戶來說沒有趣的。現(xiàn)在就需要能夠過濾這些模式而提供給用戶有用或有趣的模式的挖掘技術(shù)。軟計(jì)算方法包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集和混合方法近來用于解決這些問題。

  軟計(jì)算具有以低求解成本、快速的方法解決復(fù)雜問題。本文對數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了一個(gè)綜合性闡述。對它們的特點(diǎn)進(jìn)行了分析,并對它們在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。模糊集為這個(gè)過程中的處理不確定性提供了一個(gè)自然框架,神經(jīng)網(wǎng)絡(luò)和粗集廣泛應(yīng)用于分類和規(guī)則生成。遺傳算法應(yīng)用于各種優(yōu)化和搜索過程中,如優(yōu)化排序和模式選擇。

  參考文獻(xiàn)

  [1] U. Fayyad and R. Uthurusamy, “Data mining and knowledge discovery in databases,” Commun. ACM, vol. 39, pp. 24–27, 1996.

  [2] W. H. Inmon, “The data warehouse and data mining,” Commun. ACM,vol. 39, pp. 49–50, 1996.

  [3]楊會志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向.河北科技大學(xué)學(xué)報(bào)[J].2000,21(3):77-80.

  [4] J. A. Major and D. R. Riedinger, “EFD—A hybrid knowledge statisticalbased工作system for the detection of fraud,” Int. J. Intell. Syst., vol. 7, pp.687–703, 1992.

  [5] R. Heider, Troubleshooting CFM 56-3 Engines for the Boeing 737—Using CBR and Data-Mining, Spinger-Verlag, New York, vol. 1168, pp. 512–523, 1996. Lecture Notes in Computer Science.

  [6] Zadeh L.,F(xiàn)uzzv logic,neural network and soft computing. Communications of the ACM,1994, 37(3):77-84.

  [7] D. Nauck, “Using symbolic data in neuro-fuzzy classification,” inProc.NAFIPS 99, New York, June 1999, pp. 536–540.

  [8]湯效琴,戴汝源.數(shù)據(jù)挖掘中變量聚類方法的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用[J].2004,40(24):171-173.

  [9] 范明,孟小峰譯. 數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

  [10] Q. Wei and G. Chen, “Mining generalized association rules with fuzzy taxonomic structures,” in Proc. NAFIPS 99, New York, June 1999, pp. 477–481.

  [11] J. Kacprzyk and S. Zadrozny, “Data mining via linguistic summaries of data: An interactive approach,” in Proc. IIZUKA 98, Fukuoka, Japan, Oct. 1998, pp. 668–671.

  [12] 吳瑞.基于FLAAT模糊的WEB挖掘算法.武漢科技大學(xué)學(xué)報(bào)(自然科學(xué)版)[J].2005,28(3):270-272.

  [13] S.I.Gallant. Neural Nework Learning and Expert Systems. Cambridge, MA:MIT press, 1993.

  [14] Rudy Setiono, Liu H. Understanding neural networks via rule extraction. In: Proc of the 14th International Joint Conference on Artificial Intelligence, Montreal, 1995. pp.480-485

  [15] Sestito S, Dillon T. Knowledge acquisition of conjunctive rules using multilayered neural networks. International Journal of Intell Sys, 1993, 8(7): 779~805

  [16]M.W.Craven, J,W,Shavlik . Using sampling and queries to extract rules from trained neural networks. In: Proc of the 7th Int'l Conf on Mathine Learning, New Brunswick, 1994. pp.37~45

  [17] M.W.Craven, J,W,Shavlik. Extracting tree-structured representations of trained networks. Cambridge, MA:MIT press, 1996.

  [18] M.W.Craven, J,W,Shavlik. Using neural networks in data mining. Future Generation Computer Systems.1997.13.pp.211-229.

  [19]T. Ryu and C. F. Eick, “MASSON: Discovering commonalties in collection of objects using genetic programming,” in Proc. 1st Annu. Conf. Genetic Programming 1996, Stanford Univ., CA, July 28–31, 1996, pp. 200–208.

  [20] K. Xu, Z. Wang, and K. S. Leung, “Using a new type of nonlinear integral for multiregression: An application of evolutionary algorithms in data mining,” Proc. IEEE Int. Conf. Syst., Man, Cybern., pp. 2326–2331, Oct. 1998.

  [21]鄭志軍,林霞光.一種基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法.西安建筑科技大學(xué)學(xué)報(bào)[J] .2000,32

  [22]劉勇國,李學(xué)明,張偉基.于遺傳算法的特征子集選擇.計(jì)算機(jī)工程[J].2003,29

  [23] Jelonek J,Krawiec K. Rough set reduction of attributes and their domains for neural networks[J]. Computational Intelligence.1995.11(2):339-347.

  [24] Kryszkiewicz M. Rules in incomplete systems[J]. Information Sciences, 1999,113(4): 271-292.

  [25] Banerjee M. Pal K. Rough fuzzy MLP: knowledge encoding and classification[J]. IEEE Trans. Neural Networks, 2002.9:1203-1216.

主站蜘蛛池模板: 免费看精品黄线在线观看 | 久久欧美久久欧美精品 | 黄色视屏在线 | 男女激情爱爱 | 免费国产成人高清在线观看视频 | 91久久老司机福利精品网 | 天天爽影院一区二区在线影院 | 国产酒店视频 | 欧美日韩国产高清精卡 | 国产日韩欧美视频在线观看 | 日本69色视频在线观看 | 欧美日韩顶级毛片www免费看 | 91福利区| 国产大尺度福利视频在线观看 | 国产美女极品福利视频 | 看黄色的网址 | 国产91色综合久久免费 | 无耻三级在线观看 | 亚洲国产福利 | 成人国内精品久久久久影 | 国产成版人视频网站免费下 | 精品国产香蕉 | 欧美极品妇xxxxxbbbbb | 日韩黄色在线播放 | 日韩欧美在线观看视频 | 国产成人精品免费视 | 黄色免费a级片 | 丁香六月久久 | 欧美精品久久久久久久影视 | 金发欧美一区在线观看 | 永久福利盒子日韩日韩免费看 | 国产精品久久久亚洲456 | 亚洲激情视频图片 | 韩国一级做a爰片性色毛片 韩国一级做a爱性色毛片 | 成人黄色激情网站 | 久久www免费人成精品香蕉 | 九九99香蕉在线视频网站 | 香港一级a毛片在线播放 | 亚洲日本在线观看视频 | 久草在线视频资源站 | 视频精品一区二区三区 |