時間:2014年03月31日 分類:推薦論文 次數:
摘要:隨著市場競爭的日益激烈,如何降低客戶離網率,是擺在各運營商面前的戰略性任務。采用數據挖掘技術,從數據理解、數據準備、建立模型、模型評估和結果部署等五個階段,詳細介紹了通信企業中客戶離網分析模型的建立過程及應用。
關鍵詞:通信職稱論文發表,職稱論文發表,通信企業,數據挖掘技術,客戶離網
隨著數據挖掘技術的發展,數據挖掘的重要性己經被越來越多的人認可,它是利用己知的數據通過建立數學模犁的方法找出潛在的業務規則。在國外很多的行業已經具有成功的應用。通信行業的應用領域主要有客戶關系管理,客戶欺詐分析,客戶流失分析,客戶消費模式分析,市場推廣分析等。在國內隨著對數據挖掘技術的重視,數據挖掘技術的應用研究也越來越廣,其中對通信行業的客戶離網分析就是一大熱點。客戶離網分析是通過對以往流失客戶的歷史數據進行分析,找出可能離網用戶的特征,及時采取相應的措施,減少客戶流失的發生。
一、數據挖掘技術發展的根源
究其根源,數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的數據庫中的,然后發展到可以對數據庫進行查詢和訪問,進而發展到數據庫的即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對過去的數據進行查詢和遍歷,并且能夠找出過去數據之間的潛在聯系,從而促進信息的傳遞。而數據挖掘技術能夠得以實現并投入商業應用,則要得益于三種基礎技術——海量數據搜集、強大的多處理器計算機和數據挖掘算法的發展。如果說上面講述的是數據挖掘技術產生的外因,那么內容則是數據技術可以用它如下的超能力產生巨大的商業機會:
①自動趨勢預測:數據挖掘能自動在大型數據庫里面尋找潛在的預測信息。傳統上需要很多專家來進行分析的問題,現在可以快速而直接地從數據中間找到答案。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的人量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
②自動探測以前未發現的模式:數據挖掘工具掃描整個數據庫并辨認出那些隱藏著的模式,比如通過分析零售數據來辨別出表面上看起來沒有聯系的產品,實際上在多情況下是一起被出售的。
二、數據挖掘的過程及與通信客戶離網分析有關的數據挖掘方法
1、數據挖掘的過程
數據挖掘就是從雜亂無章的數據中找出規律,是把數據轉化為信息的一個過程,它的目標是在數據中發現有價值的規則或者模式并用于指導實際應用。目前,實現數據挖掘的過程基本上大同小異。一般說來,數據挖掘項目要經歷的過程包括:問題的理解,數據的理解,收集和準備,建立數據挖掘模型,評價所建的模型,應用所建的模型等一系列任務。例如,數據挖掘討論組從挖掘環境的角度入手,提出確定業務對象、數據準備、數據挖掘、結果分析、知識的同化五個過程。
2、與通信客戶離網分析有關的數據挖掘方法
數據挖掘面對的是海量的數據,需要挖掘的數據可能具有不完全的、有噪聲的、隨機的、數據結構復雜、維數大的特點。數據挖掘的大部分方法都不是專為解決某個問題而特制的,一般來說并不存在所謂的最好的算法,在最終決定選取哪種模型或算法之前,各種模型都試一下,然后再選取一個較好的。各種算法在不同的數據環境中,優劣會有所不同。與通信客戶離網分析有關的數據挖掘方法有:
(1)神經網絡
由于其本身良好的健壯性、自組織自適應性、并行處理、分布存儲和高容錯性等特點,近年來越來越受到人們的關注。典型的神經網絡模型主要分為三大類:用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,t用于聚類的自組織映射方法。神經網絡的知識體現在網絡連接的權值上,是一個分布式矩陣結構;神經網絡的學習體現在神經網絡權值的逐步計算上(包括反復迭代或累加計算)。運用神經網絡的方法產生許多分類器,通過學習進行模式識別。神經網絡是由多個非常簡單的處理單元彼此按某種方式相互連接而成的計算機系統,可以完成分類、聚類、特征挖掘等多種數據挖掘任務。神經網絡算法的缺點是“黑箱”性,人們難以理解網絡的學習和決策過程。
(2)決策樹
決策樹是一種常用于分類和預測的算法,它通過將大量數據按照一定規則進行分類,從中找到一些有價值的、潛在的信息。決策樹是一個類似于流程圖的樹結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個葉節點代表類或類分布。它的基本思想是使用有屬性描述的訓練數據,根據屬性構造決策樹。從根節點到葉節點為一條生成規則。整棵樹就代表著決策集的樹形結構。用這棵樹(或由這棵樹形成的規則集)就可以對測試樣本進行分類預測。
(3)近鄰算法
將數據集合中每一個記錄進行分類的方法。其中具有代表性的是K最近鄰算法。這種方法通過K個鄰居的平均數據來預測該特定數據的某個屬性或行為。這種方法可用作聚類、偏差分等數據挖掘任務。
(4)遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。它包括基因組合、交叉、變異和自然選擇等一系列過程。因其具有隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。遺傳算法的應用還體現在與神經網絡、粗糙集等技術的結合上,如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱含層單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法相對來說過程較復雜。
(5)粗糙集
粗糙集理論是八十年代初由波蘭科學家Z.pawlak首先提出的一種研究不精確、不確定知識的數學工具。粗糙集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單易于操作。粗糙集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗糙集的數據、一挖掘奠定了堅實的基礎。
(6)統計分析
在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表示的確定性關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系)。對它們的分析可采用統計學方法,即利用統計學原理對數據庫中的信息進行分析。可進行常用統計、回歸分析、相關分析、差異分析等。
(7)模糊集
利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型一云模型,并形成了云理論。
三、應用實例——客戶離網分析
(一)業務問題定義
針對客戶離網的不同種類分別定義業務問題,進而區別處理。在客戶離網分析中有兩個核心變量:財務原因/非財務原兇、主動流失/被動流失。客戶離網可以相應分為四種類型,其中非財務原因主動離網的客戶往往是高價值的客戶,他們會正常支付服務費用,并容易對市場活動有所響應。這種客戶是企業真正需要保住的客戶。此外在分析客戶離網時必須區分集團/個人客戶,以及不同消費水平的客戶,并有針對性地制定不同的流失標準。
(二)數據選擇
數據選擇包括目標變量的選擇、輸入變量的選擇和建模數據的選擇。
1、目標變量的選擇
客戶離網分析的目標變量通常為客戶流失狀態。根據業務問題的定義,可以選擇一個已知量或多個已知量的組合作為目標變量。實際的客戶流失形式有兩種:因賬戶取消發生的流失,因賬戶休眠發生的流失。對于因賬戶取消發生的流失,目標變量可以直接選取客戶的賬戶狀態(取消或正常);對于因賬戶休眠發生的流失,可以認為持續休眠超過一定時間長度的客戶發生了流失。這時需要對相關的具體問題加以考慮。
2、輸入變量的選擇
輸入變量是模型中的白變量,在建模過程中需要尋找自變量與目標變量的關聯。輸入變量分為靜態數據和動態數據。靜態數據指不常變化的數據,包括服務合同屬性(如服務類型、服務時間、交費類型)和客戶的基本資料(如性別、年齡、收入、婚姻狀況、學歷、職業、居住地區);動態數據指頻繁或定期改變的數據,如月消費金額、交費記錄、消費特征。業務人員在實際業務活動中可能會感覺到輸入變量與目標變量的內在聯系,只是無法量化表示出來,這就給數據挖掘留下了發揮的空間。
3、建模數據的選擇
客戶流失的方式有兩種:第一種是客戶的自然消亡,例如身故、破產、遷徙、移民而導致客戶不再存在,或者由于客戶服務的升級(如撥號接人升級為ADSL接人)造成特定服務的目標客戶消失;第二種是客戶的轉移流失,通常指客戶轉移到競爭對手,并使用其服務。
(三)數據清洗和預處理
數據清洗和預處理是建模前的數據準備工作,一方面保證建模數據的正確性和有效性,另一方面通過對數據格式和內容的調整,使數據更符合建模的需要。數據整理的主要工作包括對數據的轉換和整合、抽樣、隨機化、缺失值處理等等。例如:按比例抽取未流失客戶和已流失客戶,將這兩類數據合并,構成建模的數據源。此外,模型在建立之后需要大量的數據來進行檢驗,因此通常把樣本數據分為兩部分,2/3的數據用于建模,1/3的數據用于模型的檢驗和修正。
(四)模型選擇與預建立
在模型建立之前,可以利用數據挖掘工具的相關性比較功能,找出每一個輸入變量和客戶流失概率的相關性,刪除相關性較小的變量,從而可以縮短建模時間,降低模型復雜度,有時還能使模型更精確。可以分別使用多種方法預建立多個模型,然后對這些模型進行優劣比較,從而挑選出最適合客戶流失分析的建模方法。此外數據挖掘工具還提供了選擇建模方法的功 能,系統可自動判別最優模型,供使用者參考。
(五)模型建立與調整
模型建立與調整是數據挖掘過程中的核心部分,通常由數據分析專家完成。需要指出的是,不同的商業問題和不同的數據分布屬性會影響模型建立與調整的策略,而且在建模過程中還會使用多種近似算法來簡化模型的優化過程。因此還需要業務專家參與調整策略的制定,以避免不適當的優化造成業務信息丟失。
(六)模型的評估與檢驗
應該利用未參與建模的數據進行模型的評估,才能得到準確的結果。檢驗的方法是使用模型對已知客戶狀態的數據進行預測,將預測值與實際客戶狀態作比較,預測正確率最高的模型是最優模型。
(七)模型解釋與應用
在模型應用過程中,可以先選擇一個試點實施應用,試點期間隨時注意模型應用的收益情況。一旦發生異常偏差,則立即停止應用,并對模型進行修正。試點結束后,若模型被證明應用良好,可以考慮大范圍推廣。推廣時應注意,由于地區差異,模型不能完全照搬,可以先由集團總部建立一個通用模型,各省分公司在此基礎上利用本地數據進行修正,從而得到適用于本省的精確模型。在模型應用一段時期,或經濟環境發生重大變化后,模型的偏差可能會增大,這時應該考慮重新建立一個適用性更強的模型。
參考文獻:
[1]賈琳,李明.基于數據挖掘的電信客戶流失模型的建立與實現[J].計算機工程與應用,2004.
[2]林杰斌,劉明德,陳湘.數據挖掘與OLAP理論與務實[M].清華大學出版社,2002.
[3]馬莉,基于數據挖掘的電信客戶流失成因研究[D].華東師范大學,2006.