時間: 分類:推薦論文 次數:
摘要:高速公路營運過程中產生巨大的收費數據量,這些數據無論是對交通管理部門,還是對高速公路營運企業都是一筆十分寶貴的數據財富。在這些營運數據中反映了很多的信息,如何對這些海量數據進行科學的處理,找出規律,是道路管理部門亟待解決的問題。本文簡單介紹了有效處理海量收費數據的一般方法。
關鍵詞:高速公路 收費數據 處理方法
Abstract: highway operation process produce the huge charge data quantity, the data either to the transportation management department, or the highway operation enterprise is a very precious wealth of data. In these operations in a lot of data reflect information, how these mass data processing of science, and find out the law, is the way to the problems of the management department. This article simply introduces the effective process mass charge data of a general method.
Keywords: highway charge data processing method
一、引言
近年來我國高速公路發展迅速,江蘇高速公路通車總里程已突破4000公里,通車總里程居全國第二,密度居全國第一。江蘇省高速公路每月通行車輛數可達1000多萬輛,道路營運產生的收費數據量是巨大的,江蘇省高速公路聯網收費系統儲存了大量收費基礎數據。在營運數據中,僅僅收費數據和軸重數據的記錄,每月總量就可達到5000萬條之多。這些數據充滿了龐大的數據庫,形成了浩瀚無垠的信息海洋。
在這些營運數據中反映了很多的信息,例如:軸重狀況,車流量狀況,車流量比例狀況,每個路段車流負荷狀況和每個收費站的收費人員工作狀況等。這些信息對服務質量的提高,資源的有效使用,路面的有效保養都具有重要的參考意義。這些數據,無論是對交通管理部門來說,還是對高速公路營運企業來說,都是一筆十分寶貴的數據財富。如何對這些海量數據進行科學的處理,找出規律,對交通行業主管進行決策參考和管理公司指導營運管理,都具有很高的價值。在此本文就數據處理方法談點體會。
二、處理方法
收費數據分析
根據【江蘇省蘇南高速公路聯網收費暫行技術要求】、【江蘇省蘇北高速公路聯網收費暫行技術要求】和【江蘇省高速公路聯網收費系統計重收費(數據部分)技術要求】的規定,高速公路聯網收費原始數據分別存儲在"入口車道原始過車記錄表"、"出口車道原始過車記錄表"和"軸重原始數據表"中。這3個表主要包含:入口數據、出口數據、路徑數據、車輛數據、收費數據、管理數據、冗余數據。
在選用的關鍵數據中,除了可以直接看到的顯式數據外,這些數據還隱含了一些其它數據內容。配合適當的方法以及相關數據,可以提取出這些隱含內容,主要包含:路段數據、地點數據、車型數據、超限數據、日期時間數據。
數據整理流程
數據整理流程從合并聯網收費數據開始,到將預處理過的數據導入數據應用挖掘數據庫為止,大致包括以下幾個步驟:
1. 數據合并
海量的收費數據分散放置在大量的數據表中,既不便于篩選和查詢,也不便于統計和分析。在出口車道原始過車記錄表包含了入口車道原始過車記錄表中的入口數據和車輛分類數據,所缺的恰巧是不需要考慮的管理數據和冗余數據。因此只需要合并和處理出口車道原始過車記錄表和軸重原始數據記錄表的相關內容,即可滿足數據挖掘的實際需要。
2. 數據過濾
因為收費數據中不僅包括進行數據應用處理時所需要的各種數據,例如:入口數據、出口數據、路徑數據和車輛數據,而且還包括了不需要的其它數據:收費數據、管理數據和冗余數據。所以必須對合并后的收費數據分別進行多次過濾,逐步濾除不需要的數據。
3. 數據預處理
計算機在進行數據處理時,速度最快的是進行加減運算,其次是進行乘除運算,而冪運算、字符串運算和邏輯運算則計算速度很慢。
由于在進行數據應用處理時,許多數據應用處理都涉及到復雜的數學計算。在涉及到的計算方法中,不僅包括了四則運算,而且還包括了冪運算、字符串運算和邏輯運算。因此,不僅計算方法十分復雜,而且計算效率很難提高。
因為這些數學計算具有一定的共性,所以將其提取出來進行預處理,不僅可以減少數據應用處理的復雜程度,而且可以大大提高計算效率。
另外,從數據規定有效時段的角度來考慮,更應該對數據進行預處理。在進行數據預處理時,應該注意各個需要進行預處理的數據之間的先后關系。有部分數據是屬于獨立數據,例如:行駛里程數據、當量軸次數據,不論先處理或者后處理均無關系。也有一部分數據是屬于有依賴關系的數據,例如:總軸限、超限限值、超限比例,必須按照特定的先后順序處理,才能夠保證得到正確的處理結果。否則,不僅可能得到錯誤的處理結果,甚至可能根本無法進行處理。
4. 數據導出
數據導出的操作方法和數據合并的操作方法類似,只是不存在多表對單表操作,而是單表對單表操作,所以在這里就不再冗述了。
數據整理注意要點
1. 批次大小
每期數據可以是一個月的數據,也可以是一年的數據,但是不能更多;每期數據的相關數據規定的有效時段必須相同,例如:2009年和2010年的數據不能同期處理;
當南北網數據分開處理并且每一次處理一個網一年的數據時,某些處理過程需要高達幾十個小時,完成全部處理過程需要近二百個小時;但是,當每次處理一個月數據時,南北網數據在一天內即可全部完成處理;
這中間的差別是因為進行某些數據處理時,隨著數據量的增長,數據處理量不是呈線性關系增長,而是呈指數關系增長;
出于保持數據完整性考慮,應該采用較大的數據處理批量;出于實際處理效率考慮,應該采用較小的數據處理批量;
兼顧兩者,通盤考慮,建議南北網數據分別處理,每次處理一個季度的數據為宜。
2. 處理位置
在存放原始數據的數據庫中進行處理,不僅可以得到最好的數據處理效果,因為不需要傳輸數據,還可以節省大量數據傳輸時間;
具體操作時可以利用SQL腳本自動生成臨時數據表,完成數據整理和數據導出后,再刪除臨時數據表釋放存儲空間;
以每次處理一個季度的數據為例,占用存儲空間只有幾個GB,加上處理過程中占用的日志空間,也不會超過20個GB;為了減少日志占用的存儲空間,盡可能不要將處理腳本一次性全部提交,而是人為將其分割成幾個部分分次提交。
3. 處理效率
為了提高處理效率,除了必須按先后順序進行的處理外,應該盡可能將處理條件相同或者接近的數據處理放在一個處理過程中完成,例如:車輛軸型和總軸限處理過程;
在用到數據檢索、數據匹配操作時,應該盡可能建立索引(不一定是建立主關鍵詞,有時雖然不能建立主關鍵詞,但是可以建立索引。)后,再進行數據處理,例如:行駛里程數據預檢索過程;
應該盡早檢查錯誤數據,并且及時加以剔除,以防止數據處理過程中斷;因為數據處理過程中斷后,不僅前面的處理工作全部浪費,而且數據庫回滾恢復原狀還需要占用大量的時間;
只有通過各種方法配合,通盤綜合考慮,才可能有效的提高總處理效率。
三、結束語
高速公路聯網營運在我國日漸廣泛,軟件技術和硬件設施的發展也與世界先進水平相距不遠。和銀行、電信、地質、保險、零售等數據挖掘技術應用廣泛的行業相比,高速公路數據應用處理的方法和深度還有一定的差距,這與高速公路信息技術高速發展不相匹配。高速公路行業的主管部門希望在行政決策和行業管理上得到更充分、更深入、更有針對性的相關數據支持;同樣高速公路管理公司和營運企業,也希望在改善服務質量、提高管理水平、優化資源配置等方面,得到更有效的數據支持。利用合理有效的數據處理手段能夠總結提煉出對高速公路運營管理有益的規律和手段,能夠完善高速公路的管理,有效地提高高速公路的管理質量和服務質量,為高速公路建設進一步向信息化、智能化方向發展打好基礎。
參考文獻:
[1] 交通部.聯網收費技術要求[S]. 北京:人民交通出版社
[2] 江蘇省蘇南高速公路聯網收費暫行技術要求
[3] 江蘇省蘇北高速公路聯網收費暫行技術要求
[4] 江蘇省高速公路聯網收費系統計重收費(數據部分)技術要求
[5] 劉偉明等.高速公路收費系統理論與方法[M]. 北京:人民交通出版社
級別:CSSCI南大期刊,北大期刊,統計源期刊
ISSN:1001-4233
刊期:進入查看
格式:咨詢顧問
級別:北大期刊,CSSCI南大期刊
ISSN:1671-7465
刊期:進入查看
格式:咨詢顧問
級別:CSSCI南大期刊,北大期刊,統計源期刊
ISSN:1005-9245
刊期:進入查看
格式:咨詢顧問
級別:北大期刊,統計源期刊,CSSCI南大期刊
ISSN:1000-5560
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2045-2322
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0284-1851
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2352-4928
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0169-4332
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0960-7412
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0048-9697
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0191-2917
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:1741-7007
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2238-7854
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2214-7144
刊期:進入查看
格式:咨詢顧問