第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

國內外網頁存檔理論與實踐研究歷程與特征分析

時間:2022年03月31日 分類:經濟論文 次數:

摘 要: [目的/ 意義] 存檔網頁具有憑證價值、 情報價值及檔案價值。 對國內外網頁存檔研究歷程進行梳理, 以期對我國實踐項目的發展及后續研究提供借鑒及參考。 [方法/ 過程] 對 1993 年至今的國內外網頁存檔文獻進行研讀, 參照 OAIS 模型, 將國內外網頁存檔研究整

  摘 要: [目的/ 意義] 存檔網頁具有憑證價值、 情報價值及檔案價值。 對國內外網頁存檔研究歷程進行梳理, 以期對我國實踐項目的發展及后續研究提供借鑒及參考。 [方法/ 過程] 對 1993 年至今的國內外網頁存檔文獻進行研讀, 參照 OAIS 模型, 將國內外網頁存檔研究整體劃分為 4 個階段, 分別為初始研究階段、 縱深發展階段、 功能全面提升階段、 智慧型實踐項目探索階段; 將各階段發展概況及研究歷程進行梳理, 歸納階段性研究熱點及特征。 [結果/ 結論] 網頁存檔實踐項目以理論與實踐并行的方式發展。 同時, 向智慧型實踐項目不斷探索。理論模型、 系統框架、 技術革新、 資源采集方式、 歸檔資源評估、 資源開發利用及人工配置七者交融并互相促進, 共同將存檔網頁資源推向深層化應用。

  關鍵詞: 網頁存檔; 網頁保管; 存檔網頁利用; 網頁資源長期保存

圖書情報文獻

  隨著互聯網的普及、 互聯網技術的日趨成熟,互聯網中的 “網頁信息資源” 已經成為全球最大的信息資源庫。 中國互聯網信息中心 2021 年 2 月3 日發布的 《中國互聯網發展狀況統計報告》 中的統計數據顯示, 截至 2020 年 12 月, 我國網民規模達到 9􀆰 89 億, 較 2020 年 3 月增長了8 540萬, 互聯網普及率達 70. 4%, 我國互聯網行業在抵御新冠疫情和疫情常態化防控方面發揮了積極作用, 為我國成為全球唯一實現經濟正增長的主要經濟體做出了重要貢獻[1]。

  網頁信息資源是一種動態增長的、易逝的且不可再生的 “原生性” 網絡文獻[2], 研究表明一個網頁的平均壽命只有 44 天[3], 網頁中的高價值資源一旦消失便難以復原, 將會給國家和社會文化資源的持久保存和歷史傳承造成難以挽回的損失。

  為此, 需要學界更多關注并研究網頁存檔問題, 實現網頁信息資源長期保存與持續利用。所謂網頁存檔( Web Archive, 簡稱 WA), 又稱 “網絡存檔”, 是指一種在 “原生性” 網絡信息資源的整個生命周期內對其進行有目的的評價、 選擇、 采集、 描述、 元數據表示、 存儲、 發布和維護等一系列工作以確保其當前可用和未來價值增值的管理活動[4]。

  近年來, 國內外相關領域的專家學者投入了大量的精力和時間成本開展網絡存檔研究工作, 不斷完善網絡存檔的理論研究并積極推進實踐探索, 相關研究內容眾多, 研究主題龐雜, 研究質量差異, 使得有必要更好地了解國內外網絡存檔的研究現狀, 對國內外網絡存檔研究進行系統梳理,以期對我國相關研究提供借鑒和參考。

  1 研究方法

  本文采用文獻調研法, 國內文獻選取中國知網 為國內文獻檢索平臺, 選擇高級檢索方式, 檢索條件的篇名中分別包含“網頁存檔” “網絡存檔” “網頁保存” “網絡信息資源長期保存” “Web Archive” “Web Archiving” 等關鍵詞。 國外文獻通過檢索 Web of Science、 Scopus等外文文獻數據庫, 關鍵詞 “Web Archive” “WebArchiving” “Internet Archive” 等, 經過整理最后得到全部文獻 637 篇, 其中國內文獻 294 篇, 國外文獻 343 篇。

  國外最早出現本關鍵詞相關文獻是 1993 年,國內是 1999 年。 國外最早的文獻是 1993 年 C, SIM⁃MONDS 發 表 的 SEARCHING INTERNET ARCHIVESITES WITH ARCHIE-WHY, WHAT, WHERE, ANDHOW 一文。 國內外在 1993—1999 年共發文 5 篇,2000—2004 年共發文 17 篇, 2005—2012 年共發文159 篇, 2012 至今共發文 456 篇。 由此可見, 與“網頁存檔” 相關主題地研究是以遞增的趨勢發展,說明一直以來都是國內外眾多學者研究的重點。

  可以發現, 國內文獻總量為 294 篇, 其中有25 篇為碩士論文, 沒有相關主題的博士論文, 說明國內對網頁存檔的研究還不夠深入。 國內總文獻量呈遞增趨勢, 說明在國內越來越多的專家學者投入精力完善網頁存檔的研究工作, 隨著網絡技術研究的深入, 未來會在此領域有大量新的研究文獻發表。國外從 2003 年開始文獻量大幅遞增, 這與各個國家紛紛投入網頁存檔實踐項目有直接聯系。 隨著實踐項目的不斷發展及完善, 在采集、 歸檔保存及長久保存過程中所使用技術的不斷更新, 針對網頁存檔過程中涉及的核心技術進行深入研究的文獻將變多, 由此文獻總量呈明顯遞增趨勢。

  隨著公眾認知增加、 獲取途徑增多, 新的未知問題將會不斷涌現, 未來網頁存檔將仍然是國外學者研究的熱點。在前述基礎之上, 研讀國內外相關主題文獻,挑選時區研究重點主題, 并結合現有研究進行階段劃分。 網頁歸檔實踐項目的進展影響研究主題的更新, 所以, 本文還采用網站調查法和案例分析法,使用 IIPC(國際互聯網保存聯盟)官方網站獲取最新資料。 通過對國內外網頁歸檔實踐項目的具體研究, 從整個網頁歸檔的流程, 其中包括:

  采集方式、 采集頻率、 技術方法、 存檔內容管理、 系統平臺搭建、 開源工具研發、 責任體系構建、 法律及權利等角度作為出發點, 系統歸納并總結階段性研究熱點, 為劃分本文網頁存檔研究的階段提供了重要依據。雖然網頁存檔的理論研究始于 1993 年, 但實踐研究則始于 1996 年。 本文將網頁存檔研究歷史進程共劃分為 4 個階段: 第一階段(1996—2005)為網頁存檔初始項目研究, 第二階段(2006—2010)為網頁 存 檔 研 究 縱 深 發 展, 第 三 階 段 ( 2011—2014)為網頁存檔系統功能全面提升研究, 第四階段(2015—至今)為探索智慧型網頁存檔實踐。

  本文在對國內外近年相關研究文獻和網絡存檔項目調研的基礎上, 參照 OAIS 模型, 將各階段歸納為采集、 管理、 保存、 利用 4 個主要階段[5], 對每個階段的研究進行細分。 以時間流逝線為主線, 對 1996 年至今的網頁存檔相關主題研究進行全方位梳理。

  2 網頁存檔實踐項目發展概況

  縱觀整個網頁存檔研究歷史進程, 1996 年 In⁃ternet Archive[6]的提出正式意味著網頁存檔實踐項目的興起。 同年, 澳大利亞建立 Pandora 項目[7],開發了 “PANDAS” 數字信息存檔系統, 項目保存澳大利亞境內在線出版物, 包括社會科學和自然科學、 政治、 宗教文化等方面的資源, 建立與各州立圖書館的合作關系, 在系統開發上, 主要在數字對象存儲系統、 數字對象管理系統及數字對象存檔系統 3 個領域進行主要投入[8]。 同年, 瑞典建立 Kul⁃turarw3 項目[9], 收集瑞典頂級域 “ se” 下的 Web服務器及部分其他服務器的資源。1997 年北歐圖書館在借鑒 Kulturarw3 項目的實踐經驗后, 啟動 NWA 項目[6], 并成立專門的技術小組負責制定長期歸檔資源的保存、 訪問等技術規格, 逐步建立與北歐各國圖書館、 整個歐洲地區的網頁存檔合作機制。

  同年, 美國國會圖書館建立Minerva Prototype 項目[10], 對長期保存資源的數字化、 元數據、 選擇與采集、 可獲取等問題進行試驗, 通過與 Internet Archive 項目合作, 獲取 “Way⁃back Mechine” 及采集技術, 為收集的網頁資源進行索引, 同時提供短期的數據存儲服務, 用戶可以按照網站、 日期或類別獲取資源。1999 年新西蘭國家圖書館啟動網頁存檔項目,對政府、 歷史、 醫學、 音樂、 政策等主題進行選擇性采集[11], 保存的資源內容支持網址搜索、 關鍵字搜索、 字母搜索、 主題瀏覽。 2000 年捷克國家圖書館建立 WebArchiv 項目, 提出基于重大事件的采集方式。

  2001 年挪威國家圖書館啟動 Paradigma項目, 通過法定存繳框架對長期保存的資源進行框定, 并提供獲取服務[12]。 同年英國國家檔案館開展網頁存檔項目并采取選擇性、 事件、 主題的收集方式對境內網站進行保存。 在此項目中, 部分內容可追溯至 1996 年的英國中央政府網站[13]。

  3 研究歷程及代表性觀點

  3. 1 資源采集2000 年我國就有學者提出建立網上資源庫的設想[19], 認為創建網上信息資源庫, 收集和保存網絡產生的信息資源能在 “時間、 空間和經濟行為” 三者之間進行有效配置。 這一想法啟發了楊道玲[20]提出網絡資源要及時、 系統的采集, 應建立完善的數字資源呈繳本制度, 以立法形式確保產生的網絡資源置于國家控制下。 2003 李春明等[21]在以上研究基礎之上提出為保證采集內容的準確性, 應先基于區域進行模糊抽取, 再基于正則表達式進行精確抽取, 兩種方法需要同時進行。

  2004 年趙俊玲[22] 在提出在資源采集環節需要采用選擇性采集、 全域采集等多種方式混合采集資源, 在對美國國會圖書館開展的 Minerva 項目研究中, 加深自己的研究, 提出基于重大事件的采集方式, 以此, 能夠反映事件的全貌。 同年, 我國學者提出, 對重大事件, 如非典、 人民代表大會進行專題的收集[23], 以上觀點不謀而合。 難以收集資源所有歷史版本及隱藏的或動態資源的難題一直困擾著網絡資源采集, Hiiragi W 等[24] 提出一個網絡歸檔的系統模型, 按照提供網絡資源的個人或組織確定的資源歸檔策略來收集資源的, 從技術上解決了此問題。

  2015 年 Gossen G 等[25]通過整合社交網絡和聚焦網絡抓取來提高網絡收藏的新鮮度, 提出通過一個新的集成的爬蟲, 將網絡和社會媒體無縫地整合在一起, 從而為一個感興趣的主題收集新鮮的、 相關的網絡和社會網絡內容。2016 年陳為東等[26] 在社交媒體資源進行網絡存檔的基礎之上, 從采集工具的角度出發, 提出社交媒體采集工具分為捕獲形式、 插件技術、 專門針對某一資源或社交媒體、 保存對象、 其他種類共 5類, 從 API 獨立性、 采集內容、 適用對象、 是否開源與是否免費 5 個指標比較了捕獲形式下以 API獲取信息的 7 種工具。

  2017 年張衛東等[27] 通過對歐盟 FP7 框架下發展成熟且具有代表性的社交媒體信息采集與保存項目 ARCOMEM 采用的信息采集機制、 采集標準、 采集策略和采集方法等方面予以深入剖析, 提出了建立多元的組織協作采集機制、 制定科學規范的采集標準、 運用多目標驅動的采集策略、 開發智能化的采集方法, 提出需要資源保存風險評估及控制的技術做出進一步研究。

  3. 2 資源管理關于采集數據管理問題, 2006 年陳清文[28] 提出在管理方面, 軟件、 硬件、 人力等因素需要經濟費用支撐, 應該重視經濟效益, 在長期保存管理策略也提出了提高全民意識、 制定有關網絡信息資源長期保存的法律、 建立網絡信息長期保存的責任制、 并提出網絡信息資源呈繳制。 王志庚等[29] 在2007 年提出各國項目管理數據所采取的措施不同,例如數據交換。

  因此, 需要聯合制定存檔數據管理的統一標準, 但在當時我國 WICP 的總量較小, 還沒有開展系統的數據管理研究和實踐。在 2008 年, 作者對網絡信息呈繳制的研究繼續深化, 提出將網絡信息資源納入呈繳之列, 呈繳制度應該明確呈繳者的權利和義務并建立符合我國國情的呈繳制[30]。 2011 年楊智勇等[31] 提出要從 4個方面進行網頁資源長期保存的管理分別是: 更新技術、 數字遷移技術、 仿真技術及自動管理技術。

  4 階段性研究特征分析

  4. 1 第一階段(1996—2005)在此階段, 國內外網頁存檔發展涉及較為廣泛,這是因為實踐項目剛興起, 帶來較多可以進行研究的切入點。 國外在對網頁歸檔過程中的采集工具、采集方式、 歸檔資源組織、 網站評估、 索引網站、保存系統的開發、 升級等問題的研究較為突出。 國內研究則多數以國外較成熟的實踐項目為研究對象, 充分論述國內實踐項目的同時, 多角度進行分析, 為我國的網頁歸檔實踐項目的發展提供建議;整體研究呈現增長的趨勢, 維度趨于橫向拉寬。由 1996—2005 年每一年的發文數量逐漸變多,研究代表性思想呈現逐漸朝著整個實踐項目各階段進行深入研究的趨勢, 研究的范圍逐漸變廣, 有趨于深入研究的趨勢, 隨著時代的變遷會帶來新技術的革新, 研究的成果將會呈繼續增長; 在理論研究方面, 國內的理論研究較多, 技術方面的研究較少。 國外相反, 對技術問題研究較國內更深入也更前沿。

  1) 資源采集: 國內的研究, 對于網絡資源采集方式進行較為具體的刻畫, 以選擇性采集、 全域采集及主題事件采集等多種采集方式并行的方案受到推崇; 首次提出 “呈繳本制度”, 以確保采集到的資源在國家的管控之下。2) 資源保存: 國內從資源自身屬性、 保存內容的著作權及信息資源保存框架入手, 對資源保存策略開展試探性研究, 首次出現對于 “歸檔資源評價” 的相關研究。3) 技術研發: 國內對于技術研發較少; 而國外熱度較高, 出現將文本網絡挖掘技術、 網絡考古、 新算法等技術應用于網頁存檔實踐項目, 從而解決了網頁存檔過程中文件種類多樣化、 腳本語言障礙、 域內鏈接結構等技術難題。4) 系統框架: 國內外的系統框架聚焦于資源采集部分框架搭建, 是因為此階段對于網頁歸檔資源的采集研究較多, 出現基于采集方式的系統框架及社會正義與道德框架, 以此指引網頁存檔實踐活動。

  4. 2 第二階段(2006—2010)第二階段, 技術相關研究越發深入; 國外此階段的重點是技術的研發研究, 包括系統架構升級、保存網絡分布式體系結構、 存儲框架及存檔質量等。 國內的研究, 除借鑒國外的實踐經驗之外, 對我國網頁存檔項目的個性化建議也出現較多研究成果, 對 “責任體系” 的研究為重點。 在此階段,國內外對于存檔流程研究更為細化, 趨近于完善的網頁存檔應用型項目。

  1) 資源采集: 我國學者對于國內重大事件進行專題收集, 以此反映事件全貌, 國外研究從技術角度解決了采集過程中, 難以收集資源所有歷史版本及隱藏的或動態資源的難題。2) 資源管理: 國內研究開始涉足元數據及元數據管理, 從軟件、 硬件、 人力、 資金等方面完善網頁存檔實踐項目, 對于 “呈繳制” 的研究進一步深化, 呈繳制度應該明確呈繳者的權利和義務并建立符合我國國情的呈繳制。 相較于國內, 國外此階段的研究重點在系統研發及系統框架搭建。

  3) 資源利用: 國外學者研究聚焦于促進工具的利用, 從而促進資源利用。 國內研究有相似之處, 提倡使用 “Wayback Mechine” 并且在法律允許范圍內, 盡可能開發系統, 在技術上國內的實踐項目需要技術發展。4) 技術研發: 國外對于技術研發實現一次峰值, 在開發元數據、 元數據的應用、 編目歸檔內容的方法等進行的研究較多, 也出現了一些設想, 例如在面對 Web2􀆰 0 時代的解決方案, 技術革新需要緊隨時代發展的步伐。

  5 結 語

  網頁存檔是人類網絡信息資源長期保存的重要任務, 時代的發展帶來了眾多新技術的革新問世,這也給實踐項目帶來了巨大挑戰。 首先, 網頁存檔實踐項目針對每個國家都帶有特色的烙印, 采集工具、 采集內容、 資源管理、 保存方式、 利用側重點、技術開發方向、 系統平臺建設、 法律法規標準迥異,各具特色。 其次, 作為網頁存檔實踐項目責任主體,長期保存體系的構建者, 又要為廣大用戶提供服務,需要在系統功能方面滿足用戶需求的同時, 在法律允許的范圍內, 遵守知識產權以及隱私權等相關法律約束。 隨著各國網頁歸檔實踐項目的發展, 項目過程中的各個流程都將會進一步得到深入研究。 系統梳理以往的研究具有重要作用, 對于日后網頁存檔理論及實踐有啟示意義。

  對各國家圖書館或檔案館而言, 網頁存檔實踐項目是技術與資源及人工共同結合的一項工程, 網頁存檔實踐項目發展的方向, 始終是指向 “資源深層開發利用” 環節, 提高資源利用率是最終核心問題。 理論模型、 系統框架、 技術革新、 資源采集方式、 歸檔資源評估、 資源開發利用及人工配置, 七者交融但又相互促進。 后續的相關研究中,可以根據這五方面特點, 開展更為深入的探索。

  參 考 文 獻

  [1] 中國互聯網絡信息中心(CNNIC). 第 47 次中國互聯網絡發展狀況統計報告 [R]. 2021-02-03.

  [2] 陽廣元. 國內外 Web Archive 研究綜述 [J]. 圖書館雜志, 2014,33 (10): 88-94.

  [3] 楊道玲. Web 資源保存現狀與思考 [ J]. 圖書館雜志, 2004,(10): 32-36.

  [4] 陽廣元. 國外 Web Archive 研究進展及啟示 [ J]. 圖書館工作與研究, 2016, (6): 18-21.

  [5] 黃新平, 王萍. 國內外近年 Web Archive 技術研究與應用進展[J]. 圖書館學研究, 2016, (18): 30-35.

  [6] Developers. Internet Archive [ EB/ OL].

  [7] Pandora [EB/ OL].

  [8] 李華, 吳振新, 郭家義, 等. Web Archive 發展歷程與發展趨勢研究 [J]. 現代圖書情報技術, 2009, 3 (1): 1-10.

  [9] National Library of Sweden. Kulturarw3 [EB / OL].

  [10] Library of Congress. Minerva [ EB / OL].

  作者:初彥伯 王 萍∗ 李依凝 李佳恒

主站蜘蛛池模板: 婷婷六月久久综合丁香乐透 | 日韩在线视频免费观看 | 亚洲国产精品毛片∧v卡在线 | 欧美成人国产 | 黄色在线视频免费 | 国产精品福利在线观看免费不卡 | 一级特黄国产高清毛片97看片 | 亚洲精品一二三四 | 久青草视频免费视频播放线路1 | 欧美a级片免费看 | 国产一区在线视频 | 国产精品亚洲欧美日韩一区在线 | 久草在线观看首页 | 免费看黄网站大全 | 亚洲欧美日韩激情在线观看 | 欧美日韩在线播一区二区三区 | 五月婷婷六月丁香综合 | 丁香久久婷婷 | 日本一线一区二区三区免费视频 | 成人欧美一区二区三区视频不卡 | 丁香婷婷六月 | 国产乱码精品一区二区三区网页版 | 国产一区二区在线观看麻豆 | 亚洲精品国产专区91在线 | 亚洲黄色在线播放 | 9191精品国产免费不久久 | 午夜宅男宅女 | 日本黄色高清网站 | 日本无翼乌邪恶大全彩h邪恶师 | 国产视频在线观看福利 | 久久久久久日本一区99 | 国产精品国产 | 欧美freexx | 国内一区二区三区精品视频 | 全黄一级裸片视频免费 | 一区二区三区四区在线 | 日韩中文字幕网站 | 国产欧美一区二区三区免费 | 亚州中文 | 天海翼一区二区三区高清视频 | 欧美伊人激情 |