時間:2015年05月05日 分類:推薦論文 次數:
信息網絡安全探索網絡信息資源老化的規律 推薦本站最負盛名的雜志:《信息網絡安全》論文發表官方網站 是公安部主管,公安部第三研究所主辦的綜合性專業月刊,是公安部公共信息網絡安全監察局及其下屬各網絡安全監察部門對外宣傳的窗口。
關鍵詞:信息網絡安全,網絡信息資源,老化規律
老化的探索源于1944年美國紐約大學的戈斯內爾(C.F.Gosnell)在美國《大學與研究機構圖書館》雜志上發表的題為《大學圖書館中文獻老化問題》的論文,在傳統文獻老化規律研究領域,已經形成了以半衰期(Half-Life)和普賴斯指數(Price Index)為主要指標,以負指數模型、巴爾頓—凱普勒老化方程、布魯克斯老化方程等為方法的研究體系。但是,這些指標和模型是否同樣適用于網絡信息資源的老化研究,目前還沒有得到充分的論證。以下的部分,我們在分析網絡信息資源老化原因的基礎上,通過比較傳統文獻資源和網絡信息資源老化的差異,從理論上初步探討衡量網絡信息資源老化的指標。
1 網絡信息資源老化的原因及特征
1.1 網絡信息資源老化的原因
網絡信息資源的老化是指網絡信息資源中情報的有效價值隨著時間的流逝逐漸衰減,利用率逐步降低。這與傳統文獻的老化一樣,是一種普遍存在的現象。造成網絡信息資源老化的因素很多,我們大致可以將其歸納為以下幾個方面:
(1)網絡信息資源的增長。情報學家M.勞恩曾說過:“文獻增長得越快,文獻的半衰期就越短。”信息資源的增長和老化是同一事物的兩個方面,它們從不同的角度反映信息資源的動態變化。眾所周知,網絡信息資源的增長速度極其驚人。以我國為例,據中國互聯網絡信息中心的統計,2002年12月31日,全國網頁總數為157,091,220個,字節總數為2,877,754,095KB[1];2003年12月31日,全國網頁總數為311,864,590個,字節總數為6,059,431,526KB[2];到2004年12月31日,全國網頁總數就達到了650,682,300個,字節總數增長到20,537,214,718KB,與2003年相比,增幅分別為108.6%和238%[3]。
(2)網絡信息資源的更新。網絡信息資源的更新是指網絡信息資源在載體形態、數據組織方式、網址等外在特征不變的情況下,所含知識和情報在內容上的變化。1998和1999年,Bar-Ilan和Peritz對信息計量學領域網絡信息的生命周期研究表明,在6個月內近50%的網頁發生了變化[4];而Wallace Koehler的觀察結果更為顯著,他發現97%的網站6個月內會發生變化,如觀察時間為1年,則比例上升為99%。對于網頁而言,這組數據分別為98.3%和99.1%[5]。應該指出的是,網絡信息資源更新并沒有引起網絡信息資源總量的增長。
(3)網絡信息資源的消失。網絡信息資源的消失是指網絡信息資源無論出于何種原因,被從系統中刪除,不能再被訪問和利用。文獻[4]表明,68%的網頁1年內將被從網上移除;而文獻[5]發現,有12.2%的網站和20.5%的網頁6個月后不能再被訪問到。1年后,分別上升到17.7%和31.8%。并且,每周有0.5%的網頁和網站消失。與網絡信息資源的更新不同,網絡信息資源的消失意味著網絡信息資源總量的減少。
(4)替代性網絡信息資源的出現。隨著人類對客觀事物和社會運動規律認識水平的提高,原有的知識不斷被完善和突破。同時,由于技術的進步和社會信息需求的共同推動,網上信息的加工深度越來越大,原有的知識和情報被包含在新的知識和情報之中,因而,原來不完善、不全面的陳舊信息資源逐漸不再被利用。替代性網絡信息資源的出現并不意味著原有信息資源的更新和消失,而表現為網絡信息資源中,蘊含新知識和情報的信息的出現和信息總量的增長。
(5)網絡信息資源的吸引力。網絡信息資源的吸引力主要來自兩個方面:一是網絡信息資源所揭示和反映的對象所處的發展階段。處于誕生和發展初期的事物,相關網絡信息資源的數量往往呈指數增長,老化遵循負指數函數關系。進入成熟期后,信息的增長速率變小,老化曲線也變得平緩,半衰期加長。當對該事物的認識積累到一定程度,將出現質的飛躍,相關信息的增長進入新一輪的指數增長階段,相應的,老化曲線也恢復成負指數曲線。二是網絡信息資源的受關注程度。對于網絡信息資源所揭示和反映的對象而言,受關注程度越高,往往意味著知識更新越快,半衰期越短,反之則越長。對于網絡信息資源自身而言,其受關注程度遵循“Winner takes all”法則,受關注程度越高的網絡信息資源半衰期越短,也就是說信息更新越快,質量和數量也穩步提升。
1.2 網絡信息資源老化的特征
網絡信息資源老化與傳統文獻資源老化既有相同之處,又有顯著的差異,其獨特之處主要表現在:
(1)非累積性。傳統文獻資源的重要特征之一就是其存在的永續性,即使這些載體上的知識和情報完全失去了使用價值,它也不會消失。原有信息的修正與更新、替代信息的生產以及新信息的產生必須依靠新的載體。因此,傳統文獻資源從數量上來說,總是不斷增長的。而網絡信息資源則不然。網絡環境中的信息是介于產生后永續存在與即刻消失兩種狀態之間的第三類信息,它的更新和消亡是其存在和運動的常態。在網絡環境下,新信息的出現并不一定意味著信息總量的增長,而且,相當一部分信息在喪失其使用價值之后會徹底消失,引起信息總量的減少,呈現負增長狀態。所以,我們認為網絡信息資源具有非累積性,這表明網絡信息資源的老化研究往往只能基于特定時間點或時間段,難以系統地回溯其歷史狀態。
(2)動態性。動態性與非累積性是內在統一的。任何信息都是外在形態與所含內容的統一體。記錄信息的載體和信息的組織方式是信息資源的外在形態,而內容,即其所蘊含的知識和情報才是核心。傳統文獻資源的外部形態和內容是不可分割的,因而必然具有累積性。而網絡信息資源的外部形態和內容可以是相互獨立的,因此,在網絡信息資源載體的形態、信息組織方式、網址等保持不變的情況下,內容可以不斷更新,甚至刪除,這就體現為它的非累積性。眾所周知,半衰期、普賴斯指數的測定都是依據特定領域文獻資源的被利用情況,而網絡信息資源的動態性使其老化規律的研究增加了新的內容,即對網絡信息資源自身生命周期的研究。
(3)不完全性。傳統文獻,的生產和傳播是受控的,由相關機構統一審核和管理。因此,在傳統文獻資源老化研究中,研究對象的范圍一般相當清晰,在數量上也是可數的。而在網絡信息資源的老化研究中,研究對象的不完全性卻是無法回避的問題。導致該問題出現的原因主要來自兩個方面:一是網絡的開放性決定了網上信息的發布基本上處于不受控制的狀態,因此,任何研究者都無法確知網絡信息資源的精確構成和分布狀況,在研究特定領域的網絡信息資源時,也就不可能準確地劃定研究對象的范圍和數量。二是網絡信息資源的非累積性和動態性造成了研究對象在時間維度上的缺失,因此,在研究中也就難以系統地回溯研究對象的歷史狀態。
2 衡量網絡信息資源老化狀況的指標
根據網絡信息資源老化的原因及其特征,我們從網絡信息資源自身的生命周期和網絡信息資源被利用情況兩個方面,建立衡量網絡信息資源老化狀況的指標。
2.1 網絡信息資源的生命周期
網絡信息資源的生命周期反映的是網絡信息資源自身的老化狀況,可以采用半衰期和生存期兩項指標衡量。
2.1.1 半衰期
半衰期源于物理學領域,原指放射性元素的原子核有半數發生衰變所需的時間。我們借用這一概念,將網絡信息資源的半衰期定義為網絡信息資源的基本構成元素有半數發生變化所需的時間。根據是否考慮網絡信息資源的增量部分,網絡信息資源的半衰期又可以分為靜態半衰期和動態半衰期。
(1)靜態半衰期。靜態半衰期是指在不考慮增長的情況下,網絡信息資源的基本構成元素有半數發生變化(含消失)的時間。例如,以網頁為基本構成元素,考察網站A的靜態半衰期。假設網站A有10000個網頁,每個月有1000個不同的網頁發生變化,并且有100個網頁消失。根據上述定義,網站A的靜態半衰期為10000÷2÷(1000+100)=4.55(月)或0.38(年)。
(2)動態半衰期。動態半衰期是在考慮增長的情況下,網絡信息資源的基本構成元素中較新的一半產生于多長時間內。例如,在上例的基礎上,假設網站A每個月新增500個網頁。根據動態半衰期的定義,網站A的動態半衰期為10000÷[2×(1000+500)-(500-100)]=3.85(月)或0.32(年)。
當然,半衰期的計算在實際研究中情況會復雜得多。首先,網頁不會勻速地發生變化、消失和增長;其次,一個網頁可能連續多次發生變化,由于我們考察的基本元素是網頁,因此只能將其計為一次;第三,在計算動態半衰期時必須認識到,新增網頁也會發生變化;最后,出于研究的需要,我們可能會選擇在信息組織上比網頁粒度更細的單元作為基本構成元素,譬如知識單元、網絡鏈接、單詞等。
2.1.2 生存期
網絡信息資源的生存期是指特定網絡信息資源的URL存續時間。如同人的遺傳密碼一樣,URL是區分不同網絡信息資源的唯一標識,因此,我們認為URL是判定網絡信息資源生存期最理想的依據。根據該定義,只要URL保持不變,無論內容如何變化,都視為同一個網絡信息資源。在極端情況下,特定URL所對應的網絡信息資源內容甚至可以為空反之,即使內容沒有發生任何變化,只要URL被改動,我們就視為原信息資源“生命”的終結和新網絡信息資源的誕生。當然,如果特定網絡信息資源及其URL同時被刪除,同樣也意味著該網絡信息資源生存期的終止。
2.2 網絡信息資源的價值周期
網絡信息資源的價值周期的計量依據是其被利用的狀況,這與傳統文獻資源老化規律的研究思路基本相同。文獻半衰期的研究可以分為學科文獻的半衰期和論文的半衰期。學科文獻的半衰期是指某學科(專業)現時尚在利用的全部文獻中較新的一半是在多長一段時間內發表的;論文半衰期是指引用這篇論文的全部其他論文的二分之一是在這篇論文發表后的多長時間內發表的。需要強調的是,學科文獻的半衰期是相對于被引文獻而言,而論文的半衰期是相對于引用文獻而言的[6]。與此相對應,我們仍然以“半衰期”為指標衡量網絡信息資源的價值周期,并按研究對象分為宏觀網絡信息資源半衰期和微觀網絡信息資源半衰期。
(1)宏觀網絡信息資源半衰期。根據學科文獻半衰期的概念,我們將宏觀網絡信息資源半衰期定義為某主題領域網絡信息資源所含鏈接的鏈宿所指資源中較新的一半是在多長時間內產生的。例如,如果我們說網絡信息計量學的網絡信息資源半衰期是1.2年,就表明在我們進行統計研究的那一年里,在網上發布的網絡信息計量學文獻中的鏈接所指資源的50%是在最近1.2年內發表的。
宏觀網絡信息資源半衰期的研究是基于網絡信息資源中的鏈接。由于網絡信息資源中的鏈接與文獻的被引文獻是性質完全不同的兩類事物,因此,在借鑒其研究思路的同時,我們應該注意自身的特殊性。筆者認為,最重要的幾個需要解決的問題是:第一,必須明確鏈接的目的,也就是鏈源與鏈宿之間的關系;第二,當鏈宿的發布時間晚于鏈源所在網絡信息資源的發布時間時應當如何計算;第三,是應該采用網絡信息資源中所有的鏈接,還是只考察出鏈;第四,從理論上來說,我們需要獲得該主題領域的所有網絡信息資源,并提取其所含有的鏈接。由于網絡信息資源的不完全性,研究結果可能與客觀實際存在相當程度的差異。
(2)微觀網絡信息資源半衰期。參照論文半衰期的概念,微觀網絡信息資源半衰期是指指向該網絡信息資源的全部其他網絡信息資源的二分之一是在其發布后的多長時間內出現的。例如,網上某文檔的半衰期是1.5年,就意味著該文檔所獲得入鏈的鏈源所在網絡信息資源的50%出現于其發布后的1.5年內。
與宏觀網絡信息資源半衰期的研究相比,微觀網絡信息資源半衰期研究所面臨的問題相對較少。根據上述定義,微觀網絡信息資源半衰期的研究不涉及自鏈,并且基本不會出現入鏈的鏈源所在資源的發布時間早于研究對象出現時間這樣的情況。因此,需要考慮的問題中最主要的就是解決或盡量縮小網絡信息資源的不完全性。盡管有研究表明,網絡鏈接的使用動機與文獻引用動機存在巨大差異,但筆者認為,無論處于何種動機,網絡信息資源獲得入鏈就意味著其使用價值的實現,我們在計量其半衰期時不必做過多的區分[7]。
3 網絡信息資源老化研究展望
網絡信息資源的老化研究與網絡信息資源的增長、分布與利用研究共同構成了網絡信息計量學研究的基本框架,對豐富與完善網絡信息計量學的學科體系具有極高的理論價值。同時,網絡信息資源老化研究的成果也是網絡信息資源建設、管理和利用的依據,具有重要的現實意義。
目前,國內對網絡信息資源的老化研究才剛剛起步,所見文獻僅有2004年王宏鑫和邱均平在《情報理論與實踐》第4期所發表的《關于網絡信息老化研究的若干問題》一文[8]。因此,在現階段應該借鑒文獻計量學的研究成果,在充分認識網絡信息資源與傳統文獻資源所存在差異的基礎上,建立網絡信息資源老化研究的理論與方法體系,為探索網絡信息資源老化規律和實踐應用奠定基礎。
【參考文獻】
1 2002年中國互聯網絡信息資源數量調查報告.http://www.cnnic.net.cn/html/Dir/2003/11/22/1393.htm
2 2003年中國互聯網絡信息資源數量調查報告.http://www.cnnic.net.cn/download/manual/report20030330.pdf
3 2004年中國互聯網絡信息資源數量調查報告.http://www.cnnic.net.cn/download/2005/2005041401.pdf
4 Bar-Ilan, Peritz B.C.The life span of a specific topic on the Web: the case of "informatrics" a quantitative analysis. Scientometrics. 1999, 46(3):371-382
5 Wallace Koehler. An Analysis of Web Page and Web Site Constancy and Permanence. Journal of the American Society for Information Science. 1999, 50(2).
6 邱均平編著.文獻計量學.北京:科學技術文獻出版社,1988.
7 Hak Joon Kim. Motivations for hyperlinking in scholarly electronic articles: A qualitative study. Journal of the American Society for Information Science. 2000,51(10)
8 王宏鑫,邱均平.關于網絡信息老化研究的若干問題.情報理論與實踐.2004(4)