時間:2020年03月07日 分類:科學技術論文 次數:
摘要:基于礦物加工研究的歷史數據,運用數據挖掘技術的分類與關聯規則功能的典型算法,女叮48算法和Apriori算法,從MYSQL數據庫中調用與某一主題相關的礦物數據,經預處理后進行挖掘處理,得到潛在的、對人們有用的信息與知識。以判斷銅硫硫化礦中硫元素是否回收為例,簡單介紹了如何將傳統礦物加工工藝與現在信息化技術相結合。研究結果可為將來深入研究奠定基礎。
關鍵詞:傳統礦物加工工藝;數據挖掘技術;MYSQL數據庫;硫元素;規則知識
礦物論文投稿刊物:《礦物學報》是我國最有影響的礦物學專業核心期刊,季刊,國內外公開發行。推動國內外礦物學工作者之間學術思想和科研成果交流,促進我國礦物學事業的發展。
隨著信息化技術的飛速發展,如何將傳統的選礦技術研究與現代信息化技術相結合已成為當今的一個研究熱點。傳統選礦方法開發周期長,若遇到相同或不同礦石,試驗過程中均需要做大量的重復性工作,導致了大量人力、物力和財力的浪費,并且試驗人員的寶貴經驗難以得到傳承,造成這些問題的主要原因之一就是大量歷史選礦試驗數據、工藝礦物學數據等沒有得到有效利用。為此,孫傳堯院士等E提出了“基因礦物加工工程”的概念并將其付諸實施,為礦物加工的發展指引出了一個新的研究方向。本文主要對“基因礦物加工工程”中的智能決策作研究,以近十幾年來銅硫硫化礦選礦報告數據為基礎,利用數據挖掘技術從海量的、不完整的、含噪聲的數據中,挖掘出人們事先不知道的但潛在有用的信息和知識。
1數據挖掘概述數據挖掘是從大量的、不完整的、含噪聲的數據中發現隱含的、人們事先不知道的、但又潛在有用的知識的過程⑵。其主要特點是能夠從海量數據中抽取出輔助決策的關鍵性知識。由于數據庫中存在大量的數據,因此,能夠充分利用這些數據并能發現有價值的信息非常重要,而數據挖掘技術正是為解決這個問題而出現的⑶。
2數據挖掘的基本過程及算法介紹
2.1數據挖掘的基本過程
數據挖掘的對象不是原始數據,是經過一定選擇、預處理和轉換之后的數據⑷。
2.1.1確定數據對象用于數據挖掘的數據主要來自北京礦冶科技集團有限公司礦物所提供的銅硫硫化礦選礦研究報告中的歷史數據。
2.1.2礦物數據準備根據主題,把相關數據存儲到MYSQL數據庫中,相關主題主要有是否脫泥、是否預浮、銅硫元素是否回收、礦石類型、精礦類型、磨浮段數、銅快浮、銅硫混浮、銅硫優先等,這里主要以硫元素是否回收為主題。
2.1.3數據挖掘進行數據挖掘時,不同的挖掘算法對預處理后數據類型有不同的要求,在進行數據挖掘之前,常需對數據進行轉換處理,以滿足不同算法的要求。
2.1.4結果分析
挖掘產生的規則知識,并不完全符合我們的要求,需要我們對其進行分析討論后,從中選擇出對我們有用的規則知識。
2.2算法介紹
數據挖掘的主要功能有分類回歸、聚類、關聯規則和主成分分析等,每種功能都有幾種乃至數十種算法,這里主要介紹此次利用的兩種典型算法,J48算法和Apriori算法。
2.2.1J48算法&旳在WEKA平臺中把C4.5算法的實現命名為J48算法,以下均稱為J48算法。J48算法是由RossQuinlan發的用于產生決策樹的算法,該算法是對ID3算法的一個擴展。決策樹算法是一種比較有代表性的有監督學習算法,有監督學習就是提供一組訓練樣本,每個樣本都有一個類別和一組屬性,類別屬性值是預先知道的,通過歸納得到一個分類模型,利用這個規則模型能夠對測試樣本進行分類。決策樹J48算法是近幾年最為流行的一種算法,在數據挖掘的分類問題中已得到廣泛應用。
3數據挖掘處理
為了將傳統的礦物加工技術與現代信息化技術相結合,利用近幾年新興的數據挖掘技術從銅硫硫化礦研究報告的歷史數據中挖掘出隱含的、潛在的對我們有用的信息與知識。研究主要圍繞著硫元素是否回收的問題,簡單地介紹如何利用分類算法J48和關聯規則Apriori算法從銅硫硫化礦研究報告歷史數據中挖掘出有用規則知識的過程。此次數據挖掘共收集了18份研究報告的20組數據進行試驗。影響硫元素是否回收的主要因素有硫的化學含量、含硫礦物的礦物含量和硫礦物V0.01mm的含量。
3.1硫元素回收之Apriori算法
Apriori算法要求的數據類型均為標稱型,并且數據中存在空缺值,因此在數據挖掘之前對其進行預處理操作,去除數據中含有空缺值的記錄并對其進行離散化處理。利用上述預處理后的數據對其數值型數據進行分箱操作,即離散化處理。選用Associate功能中的Apriori算法,保持默認的參數不變,對預處理后的數據進行挖掘處理,并不是所有規則都符合我們的要求,需要我們從中選擇出對我們有用的規則知識。以第九條規則為基礎,簡單的介紹下此類規則的意義。式中==>符號兩側的數據分別稱為前件和后件,前件的數字6代表著前件在以上16條記錄中出現了6次,后件的數字6代表著在滿足前件的記錄中,也有6條記錄符合此條規則,所以它的置信度conf=l,即在滿足前件的條件下,一定能得到后件的結果。
4結論
1)J48算法數據擬合度高,Apriori算法主要挖掘數據之間的關聯關系,需要我們從大量的規則中尋找對我們有用的知識。2)主題相關數據的質量直接影響著數據挖掘產生結果的好壞,數據預處理在其中扮演著不可替代的重要作用。3)從對銅硫硫化礦選礦硫元素是否回收這一主題進行數據挖掘的結果來看,能夠將數據挖掘技術應用于傳統的礦物加工領域,通過二者的結合,挖掘出對我們有價值的規則知識來輔助我們進行決策。4)研究結果可為將來進一步研究奠定基礎。