時間:2022年07月02日 分類:推薦論文 次數:
摘 要: [目的/意義] 數字遠讀視角下分析歷史典籍,將特定時期社會通過可視化等綜合技術展現給研究者,以幫助研究者量化史學研究。[方法/過程] 以社會發展過程中產生的文本數據為基礎,借鑒用戶畫像概念,提出社會畫像的構建方法。根據各發展分面內在邏輯數據構建社會畫像描述框架,利用多種文本挖掘技術抽取不同維度的特征標簽,形成社會畫像,并以先秦時期為例進行實證研究。[結果/結論] 借助基于史實的社會畫像,能夠全景化呈現社會發展狀況,可以為研究者快速獲得古代社會概貌提供支持,具有一定的實踐意義和價值。
關鍵詞: 社會畫像; 數字遠讀; 用戶畫像; 文本挖掘; 社會發展
2010 年,莫萊蒂引入遠讀概念將數字技術應用于人文學科,形成跨學科的數字人文研究[1]。在沒有理論假設的前提下,文本內容挖掘及可視化分析利用數據挖掘、文本聚類、分類等方法,可以從海量數據中發現知識,尋找隱藏在數據中的模式、趨勢和相關性,揭示事物現象和發展規律,是對數字人文的可視化展示,為數字文本提供全局圖景,可以很好地應用于史實的研究[2]。但目前的研究多集中于對大規模歷史資料進行單一領域的定量分析,如歷史地理信息可視化[3]、領域知識組織[4]、社會網絡分析[5]和主題挖掘[6]等。而日益蓬勃發展的用戶畫像技術,以大量具有時效性的真實用戶數據為數據基礎,抽取其中的屬性、行為等特征形成用戶模型,具有全面性、時效性、真實性、動態性以及代表性等特征[7]。
畫像技術有助于在數字遠讀處理中,進一步細分分析的顆粒度。用戶畫像技術及數字遠讀技術的蓬勃發展,為文本進行多維度社會畫像分析提供了堅實的技術基礎,本文嘗試面向典籍,基于文本挖掘視角試圖為研究者提供不同歷史時期社會的 “放大鏡”。借鑒用戶畫像概念,本文采用 “社會畫像”一詞,借以描述從文本角度構建的不同歷史時期多維度的社會畫像描述框架,然后結合歷史中的相關人物、事件、物體等數據,建立古代社會畫像標簽體系,利用定性與定量相結合的方法,從不同角度、不同層面對古代社會進行分析展示,試圖形成當時的社會畫像。以先秦時期為例進行實證研究,結果表明,本文提出的社會畫像構建技術,能夠有效形成面向文本的社會概貌描述,對于提升大規模文本的快速有效分析具有一定的實踐意義和價值。
1 相關研究
1. 1 用戶畫像
用戶畫像研究最初由交互設計之父 Cooper A[8]提出,他認為用戶畫像是 “基于用戶真實數據的虛擬代表”。用戶畫像根據用戶信息來提取典型的用戶特征,如用戶的基本屬性特征、行為特征、社交特征等[9]。在基于 VSM 的用戶畫像研究中,研究者用加權的 VSM 模型來表示用戶畫像,VSM 模型主要用于關鍵詞的獲取和賦權,通過獲取用戶行為數據、內容數據、互動數據和情景數據等使用數據[10],從中抽取關鍵詞構成用戶畫像的標簽數據,常使用布爾值、詞頻或詞頻—逆文檔頻率用以賦權值。其核心思想是將文本看作一個詞袋模型,用向量集合來表示文檔,每個向量由特征詞與權值組成,權值反映特征詞對表示文本的重要程度。用戶被表示為從用戶使用數據中抽取的關鍵詞及相應權重組成的向量,通過計算歐幾里得距離、曼哈頓距離、閔科夫斯基距離、余弦距離來測量用戶間的相似度[11-13]。
用戶畫像的標簽數據主要有兩種來源,一種是通過人工添加標簽,因其需要大量的人力物力,較少被使用; 另一種是對大量文本語料進行文本挖掘抽取特征詞進行標簽表示。文本挖掘技術多用于用戶畫像的標簽數據獲取,如圖書館基于知識挖掘的智慧推薦服務[14]。大多數用戶畫像的標簽數據通過對用戶使用數據進行關鍵詞抽取,挖掘相關信息的屬性特征,如從數字圖書館使用數據中獲取學術用戶的研究興趣[15],通過對用戶的訪問頻率、檢索習慣、檢索內容等和信息行為相關的數據進行分析,實現與用戶興趣相關的文獻推薦。
1. 2 數字遠讀“遠讀”的概念
最早由莫萊蒂于 2000 年提出,利用定量分析的方法聚焦于眾多文本單位之間的關聯,從 中 發 現 規 律,以獲得宏觀視野[16]。2005年,他又提出利用表圖、地圖和樹圖 3 種抽象模型,收集和解釋數據,進行實證化探索研究[17]。實質上,莫萊蒂提出的遠讀是通過分析數據,利用實證性模型驗證人文學者的相關研究,從宏觀角度研究人文學的發展。大規模文本集合上的遠讀,主要分為宏觀統計描述和內在結構特征揭示兩種,其結果都是文本的宏觀抽象表達,需 要 進 一 步 解讀[1]。通過宏觀的分析,利用計算機技術量化描述文本特征,幫助學者深入解讀文本潛在規律,對于歷史學者而言,可以獲得全新的視角來觀察超長歷史時間段的文化現象。可視化作為遠讀的重要呈現手段,在實際研究中多使用標簽云、網絡圖、結構圖、熱力圖、地圖、時間線圖 6 種可視化方法。
其中,標簽云用以展示高頻詞匯,網絡圖可以反映文本內或文本間信息的相互關系,結構圖可以展現語料庫或單個文檔的層級結構,時間線圖則可以反映歷史數據隨時間的演化。因此,可以認為遠讀是數字文本的可視化形式,用以描述文檔集合的全局特征,幫助學者獲得整體認知,方便研究人員更快發現文檔內部的潛在關聯,快速選擇研究角度深入分析。綜上,本文在數字遠讀研究的基礎上,結合用戶畫像研究,提出 “社會畫像”這一概念。社會畫像即社會發展概貌,由特定時期社會發展描述的基本維度匯聚而成。通過抽取每個維度的描述概念構成社會特征標簽,使用社會特征標簽構建社會畫像并進行可視化展示。基于社會特征標簽,利用定性與定量相結合的方法,從不同角度、不同層面對社會發展維度進行分析,可快速、清楚地了解該時期社會發展的主要特征。
社會畫像具有以下特征:1) 結構化: 建立社會描述文本分析框架,縮小文本分析的顆粒度。2) 自動化: 利用文本分析技術,抽取社會畫像特征標簽,自動構建社會畫像。3) 可視化: 在文本計算的基礎上,幫助研究者形成快速的多維度分析結果。
2 基于數字遠讀技術的社會畫像構建流程
基于數字遠讀技術的社會畫像可用于驗證或輔助歷史學科的相關研究,為研究者快速獲得古代社會概貌及各方面發展特征提供支持,同時幫助構建更符合現代人閱讀習慣的古漢語數字產品。社會畫像的構建主要包括兩個部分: 社會畫像描述框架和社會畫像標簽體系。其中,社會畫像描述框架是社會畫像構建的基礎,而社會畫像標簽體系是社會畫像呈現的具體數據來源,可以更細致地反映特定時期社會各分面發展狀況,并較為全面地呈現該時期主要發展特征。利用標簽體系抽取社會特征標簽并進行可視化處理,綜合展示社會畫像的效果。
2. 1 社會畫像分面描述框架的構建
在社會評價指標方面,國家發改委和國家統計局聯合制( 修) 訂的 《社會發展水平綜合評價方案》提出四大維度,涉及人口發展、生活水平、公共服務以及社會和諧; 聯合國使用人文發展指數,由健康指數、文化指數、生活水平指數復合組成。相關研究方面,王文博等[18]提出社會發展水平評價的6 個板塊,分別為人口發展、人民生活質量、經濟發展、社會公平與協調、安全與政治進步和生態環境; 代金輝等[19]構建了社會發展水平統計模型,包括經濟、人民生活、教育、科技、精神文化、醫療衛生 6 個要素層; 張艷豐等[20]在應用層面提出智慧城市數據畫像分析框架,包括智慧治理、智慧民生、智慧經濟、智慧環境、創新驅動 5 個維度。綜上,社會畫像分面描述框架需要涵蓋與社會發展相關的政務、生活、經濟、教育、環境以及創新等領域。本研究試圖通過文本統計方法借以描述特定歷史時期內社會發展的總體狀況。前期對歷史典籍進行了文本聚類[21-22],因此,本文綜合考量社會相關評價指標及前期研究文獻,擬從政治、經濟、文化、社會、軍事 5 個層面構建社會畫像描述框架 SD。
2. 2 社會畫像候選標簽的獲取
社會畫像描述框架是構建畫像的基礎,在此基礎上需要從相關文本中獲取語義相關的詞匯用于描述框架中的每個分面,借以形成以詞匯為基礎的社會畫像。候選標簽的獲取工作便是從古漢語文本數據中,抽取出社會畫像描述框架 SD 中的具體事實信息稱為概念實體,如人名、地名、時間、物品及事件等。通常情況下,某一時期社會發展中越有影響力的事件,在這一時期的社會文本中記敘的篇幅越長、內容越多。因此,本文利用社會畫像標簽體系構建用戶詞典,在只考慮詞頻的情況下對語料庫進行抽詞,通過計算候選標簽在數據集中的總詞頻與該詞在數據集中覆蓋程度之間的乘積,得到候選標簽及其初始權值。
2. 3 社會畫像特征標簽加權
計算為進一步區分候選標簽的重要程度、加強特征標簽與社會發展分面之間的映射關系,更好地區分抽取出的特征候選詞的重要程度。本文利用改進的社會發展向量模型對已抽取社會特征候選詞的權重進行修正,修正后的特征候選詞權重為該詞的初始權重 SEAi 值與該詞所屬類別的成分得分系數的乘積[23]。本研究針對春秋時期歷史典籍語料數據,通過分別統計抽取的候選標簽所表征的事件種類和個數,以春秋三傳中時間劃分為文本組織標準,形成了 255 個觀測數據樣本。利用主成分分析法進行降維因子分析,并利用 KMO 和 Bartlett 球形度檢驗定量的檢驗變量之間是否具有相關性。
3 社會畫像構建實證分析
為驗證本文提出的社會畫像構建方法的有效性,本文選取先秦時期進行社會畫像構建的實證分析。先秦時期作為中國歷史上重要階段,學者們研究較為深入,相關研究成果能夠支撐本文實證效果的驗證。《左傳》作為先秦時期重要典籍,保留了大量先秦春秋時期政治、經濟、文化、軍事等各方面的信息。因此,本文以已進行人工分詞和詞性標注的 《左傳》語料[24]為代表,作為春秋時期社會畫像的重要文本來源。
3. 1 以《左傳》文本為例的社會畫像構建
首先,本文利用 《春秋左傳詞典》 《漢語大詞典》構建春秋時期社會畫像描述框架; 其次,本文抽取 《左傳》中與社會發展相關的客觀描述性文本,構建春秋時期社會語料庫,利用社會畫像標簽體系構建用戶詞典進行社會標簽抽取。選擇計算 SEAi 結果排名前 50%且出現在兩篇以上文檔中的詞作為春秋社會特征,共篩選得到311 個候選標簽,因古漢語多使用單字且語義多樣,因此,同現代漢語相比,抽取難度較大。使用改進的社會發展向量模型對已抽取候選標簽進行加權,并做歸一化處理,篩選后得到的春秋社會特征標簽及其對應權重。
大多數特征標簽權重較低,僅少數特征標簽的權重大于 0. 6。因此,可認為權重高的特征標簽是 《左傳》描述的春秋社會的主要特征,關注高權重特征標簽可以幫助發現春秋社會的顯著特點。計算特征標簽在春秋社會畫像標簽體系中的映射距離及關聯系數,根據特征標簽關聯系數及其權重繪制春秋時期的社會畫像。總體上春秋時期社會特征標簽主要被分為四大類,具體為 “政治” “社會” “文化”“軍事”,其中與 “政治” “軍事”相關的特征標簽最多,“文化”類特征標簽次之,“社會”類特征標簽最少。在 《左傳》中記敘與經濟發展相關的事件描述非常少,因此,特征值排名前 50 的詞中沒有經濟相關的特征標簽。
3. 2 以《左傳》文本為例的社會畫像分析
3. 2. 1 社會畫像維度分析
根據已構建的社會畫像描述框架,對構建的社會畫像進行不同維度的描述。其中,基本信息維度通過對文本原始數據進行定量分析來描述,物質文化維度和非物質文化維度通過對春秋時期社會畫像的標簽數據進行定量分析來描述。
1) 基本信息維度。用于描述某一時期社會的基本信息的特征標簽,如社會中的諸侯國、氏族、部落、主要人物及其相關的地理位置等信息。
從基本信息維度進行分析。 《左傳》所記歷史共 254 年( 公元前 722—公元前 468年) ,涉及東周王朝君王共 17 位,包含 8 個主要諸侯國: 齊、宋、晉、秦、楚、吳、越、鄭,記載約113 個氏族、47 個部落,以戎、狄、皋落氏為主要代表,整個春秋時期的主要人物包括秦穆公、晉文公、齊桓公、宋襄公、楚莊公等。
2) 物質文化維度。描述社會物質類的特征標簽,包括實體類信息,如具體的器物、建筑、景觀、宮殿等,以及對實體起描述作用的描述性信息。《左傳》所記敘的春秋社會物質文化維度具體包括器具、建筑類型、宮殿、宗廟和生產材料等方面。其中,器具根據用途分為刑具、農用器具、工業器具、祭祀用具、禮器、兵器和日常用具; 建筑類型專指古建筑類型,包括宗廟、宮殿、門、亭臺等; 在經濟生產材料方面,工業材料主要為鐵、銅等,手工業材料主要為絲、布、麻、毛等。整體來看,春秋時期的物質文化多以祭祀需要和軍事防御為主要目的,同時由于 《左傳》中經濟相關記敘較少,抽取出的經濟生產材料相對較少。3) 非物質文化維度。用于描述社會非物質類的特征標簽,包括具體的民俗、文化相關人物等實體類信息,以及對應的描述性信息。
3. 3 結果分析
現有的數字遠讀分析主要集中于高頻詞分析、主題聚類及情感分析等。本文提出的社會畫像分析主要針對歷史文本,建立社會發展描述分析框架,將詞頻分析在一定程度上提升為語義類別的分析,通過抽取相關語義類別的概念進行可視化描述。從本質上說是基于統計手段為人文學者文本深度分析提供了一種數字化處理的手段。從定性評價的角度,春秋社會畫像將這段歷史時期從軍事、政治、社會及文化 4 個層面,通過對重要的人物、地點、事件、物件進行分析與統計,較難用量化方法準確衡量每個維度的描述準確性。《春秋大事表》是清代研究 《春秋》經傳的一部重要著作,作者顧棟高對春秋及其三傳做了分類整理和實證研究[25]。本文將研究結果與 《春秋大事表》進行對比,本文的量化統計結果較為吻合。由于本文語料來源的限制,經濟類別未涵蓋在統計結果中。部分詞類活用的詞匯未能準確反映類別特征。總體而言,驗證了本文提出的社會畫像方法能夠在一定程度上實現對文本的結構化和語義化分析。
4 結 論
對典籍數據進行社會畫像的主要目的是將古代社會發展過程中的描述文本通過可視化技術進行分析展示。本文在相關理論研究的支持下,借鑒用戶畫像概念,提出社會畫像及社會畫像描述框架,利用社會畫像標簽體系抽取特征標簽來表示社會特征,并構建該時期的社會畫像。為驗證本文提出方法的有效性,針對先秦典籍文本,構建了春秋時期社會畫像,主要包括政治、軍事、文化及社會 4 個發展分面,主要特點為外交類政治事件頻繁、戰爭頻發、注重禮樂文化。畫像結果與相關歷史研究結論相符,表明本文提出的社會畫像構建方法可以為研究者快速獲得古代社會概貌提供支持,具有一定的實踐意義。本文的春秋社會畫像構建研究還存在許多不足。首先,需要完善社會畫像描述框架,需要更多的數據來豐富框架內容; 其次,在基于社會畫像標簽體系的特征標簽抽取算法中,需要進一步考慮詞與詞之間豐富的關系,拓展現有的詞間關系; 最后,由于分析的社會語料較為單一,沒有實現對不同時期的社會畫像進行比較和分析,這對深入探索古代社會尤其是先秦時期社會的發展變遷也很重要。以上不足需要在后續研究工作中繼續改進和優化。
參 考 文 獻
[1] 王 軍. 從人文計算到可視化———數字人文的發展脈絡梳理[J]. 文藝理論與批評,2020,( 2) : 18-23.
[2] 歐陽劍. 面向數字人文研究的大規模古籍文本可視化分析與挖掘 [J]. 中國圖書館學報,2016,42 ( 2) : 66-80.
[3] 潘威. “數字人文”背景下歷史地理信息化的應對———走進歷史地理信息化 2. 0 時代 [J]. 云南大學學報: 社會科學版,2018,17 ( 6) : 80-87.
[4] 鄧君,鐘楚依,王阮,等. 清代職官知識組織與關聯分析———以《長春縣志·長春職官考釋表》為例 [J]. 圖書情報工作,2020,64 ( 17) : 18-26.
[5] 宋雪雁,崔浩男,梁穎,等. 數字人文視角下名人日記資源知識發現研究———以王世杰日記為例 [J/OL]. 情報理論與實踐: 1-10 [2021-01-20].
[6] 何琳,喬粵,劉雪琪. 春秋時期社會發展的主題挖掘與演變分析———以 《左傳》為例 [J]. 圖書情報工作,2020,64 ( 7) :30-38.
[7] 汪倩,徐勇,張心蕊,等. 用戶畫像研究進展綜述 [J]. 現代計算機,2020,( 24) : 60-63
選自期刊《現代情報》2022 年 7 月
作者信息:何 琳 艾毓茜 劉建斌 彭秋茹( 1. 南京農業大學信息管理學院,江蘇 南京 210095;2. 南京農業大學人文與社會計算研究中心,江蘇 南京 210095)