時間:2020年04月02日 分類:電子論文 次數:
[摘要]【目的/意義】數字化浪潮下,人類活動的行為數據被越來越多地采集和記錄,為社會科學研究者獲取數據、分析數據創造了條件,由此一門正在形成的交叉研究方向——計算社會經濟學正在形成。【設計/方法】從社會科學研究對象的復雜性出發,分析了傳統社會科學研究方法的局限性,指出數據化的浪潮和人工智能技術的發展將深刻全面地改變社會科學的面貌,導致名為“計算社會經濟學”的新學科方向的誕生。【結論/發現】計算社會經濟學基于大規模的真實數據,用定量化的手段研究社會經濟發展中的各種現象,特別是與社會過程有關的經濟發展問題以及與經濟發展有關的社會問題。這種由大數據和人工智能發展所驅動的新理念和新方法,未來將成為社會科學主流的方法論,將深刻地改變整個社會科學。
[關鍵詞]計算社會經濟學;大數據;社會科學研究;交叉研究方向
很多科學分支都經歷過方法論從定性到定量的范式轉移。即便是以“理論模型–定量預測–實驗驗證”為方法論閉環的,現在看起來最能代表定量科學成就的物理學,在其發展的早期也經歷了以定性解釋為主的時期。舉個例子,兩千多年前,亞里士多德就提出了一個著名的定性理論—四元素論(TheFourElementsTheory),認為土(earth)、水(water)、氣(air)、火(fire)這四種基本的元素構成了物理世界的物質基礎。在幾乎差不多的先秦時期,中國古代哲學家也提出了類似的五元素理論—五行說,認為金(metal)、木(wood)、水(water)、火(fire)、土(earth)五種元素按照不同比例混合即可構成世界上所有的物體。亞里士多德的物理理論在兩千年左右的時間內代表了人類對物理世界主流的理解,很可能是人類歷史上影響時間最長、范圍最廣的理論之一。
直到近代科學出現,歸功于大量化學和物理實驗以及對應的定量分析手段,他的四元素理論和動力學理論才分別被原子論(AtomicTheory)和牛頓定律(Newton’sLaw)替代。與研究物質和運動的物理科學對應,社會科學研究的是以人的活動和關系為基礎的社會結構,它包括了社會學、經濟學、法學、語言學、政治學等多個學科。與物理科學相比,從定性到定量這條道路對于社會科學而言,要困難得多。首先,社會科學研究的對象要比物理科學復雜得多。人是社會科學研究最重要的基本單位之一,其地位類似于物理科學中的原子[1]。
然而,人的行為具有異質性和陣發性[2~3]:不同的人之間行為差異很大,同一個人在不同時空下行為差異也很大,人們經常長時間保持靜默卻又突然連續頻繁從事某項活動,人們主要在近距離地方活動但有時又會突然奔赴遠方……因此,除了在分析擁擠的人流等極少量的場景中獲得了一定成功[4~5],把人群簡化成一堆同質化的原子只會消除大量有趣的社會現象。還有一些社會科學分析的對象,例如政策和法律條文,不僅復雜,而且天然地不容易用數值的手段來刻畫。其次,社會科學的研究對象具有極大的不完備性和不確定性。影響社會發展的因素數不勝數,任何包羅萬象的理論都不可能將它們全盤納入,而單個因素也是不獨立不穩定的,受到外部環境和其他因素的影響。這就使得在一個封閉的環境中,通過可控的重復實驗對社會理論進行定量化驗證變得不可能—而這恰恰是物理科學和其他自然科學得以螺旋前進的基石[6]。
與此同時,社會科學也缺乏預測未來的能力—很多時候專家和理論模型得到的預測并不優于隨機亂猜[7]。但這些錯誤預測也無法殺死理論,因為錯誤可以被歸因于未知的因素和突發的事件,而不是理論本身的缺陷。就目前來看,社會科學在發展其定量化方法的過程中,僅僅是形成了某種“事后諸葛”般的明智。一些經過修修補補的理論模型,總是可以對已經發生的事情給出定性正確甚至定量精確的解釋,但是對于未來,卻無能為力。面對這種困境,研究人員不能開倒車,退回到定性描述,而是要堅持用定量化的方法給出解釋和預測,并把解釋能力和預測精度作為評價理論適用性的指標。事實上,最近社會科學方面的研究定量化程度越來越高,也越來越依賴于真實數據[8~9]。
但是,傳統的獲取數據的方法存在很多局限性。例如,通過問卷得到的數據往往樣本規模很小,而且數據可能存在系統誤差,因為被試在回答問卷的時候往往傾向于給出更易被社會接受的答案,而非真實的答案[10]。更準確且更大規模的數據,例如經濟普查數據,又往往要消耗大量的資源才能獲得,并且時效性很差。在很多貧困的地區,這種全國性的普查甚至是不現實的[11]。對于社會科學的研究人員而言,一個以前從未出現過的重要機會就是全世界都在經歷的數據化浪潮[12]。經濟社會發展的過程數據,人類活動的行為數據,被越來越多的數據采集終端和傳感設備記錄下來。然而,這些數據往往不是傳統社會科學慣常處理的數據,而是衛星遙感、移動通訊、社交媒體等新型數據。
一方面,理解和分析這類數據,需要前沿的數據挖掘和機器學習方法,這對以統計分析為主要工具的傳統社會科學研究者提出了挑戰。另一方面,這些數據規模更大、實時性更強、精度更高,既可以降低小樣本數據的稀疏性和偏差度,又可以減少過程中的不可見部分(例如經濟普查數據就是典型的非實時數據,兩個數據點之間往往跨越幾年時間,中間的過程全然不可見),因此從原理上講可以更好地感知社會經濟態勢,評價和修正原有理論,啟發和孕育新理論,發現可能的異常,預測未來的趨勢等等。
盡管這依然不能一勞永逸地將社會科學轉化為完全定量化的學科,甚至達到自然科學的水平(我們也不應有此奢望),但毫無疑問能夠將社會科學的“科學性”往前推動一大步。以上的這些挑戰和嘗試,導致了一門新學科的涌現,它基于大規模的真實數據,用定量化的手段研究社會經濟發展中的各種現象,特別是與社會過程有關的經濟發展問題,以及與經濟發展有關的社會問題。我們不妨稱其為計算社會經濟學(ComputationalSocioeconomics),它是社會科學中一個新興的,極小的但又充滿活力和指向未來的分支[13]。
它既可以被看作社會經濟學因為方法論的變革所形成的新分支,也可以被看作計算社會科學因為研究對象的聚焦所形成的新分支。在上面的定義中,有幾個關鍵詞是特別需要注意的。第一是“定量化”,強調用數值而非描述來刻畫問題和呈現結果。從定性到定量是科學研究質的飛躍。公元前5世紀,古希臘醫生希波克拉底(Hippocrates)認為人體內有4種體液(即血液、粘液、黃膽汁、黑膽汁),每種體液所占比例的不同決定了人的氣質差異,而人的氣質類型也可以分為四類,分別是多血質、膽汁質、黏液質和抑郁質。這一定性的理論,如同亞里士多德的四元素論對物理學的影響一樣,統治了心理和人格分析領域兩千多年。
遺憾的是,這種包含了一定合理成分但純粹定性描述的理論,沒有在發展過程中累積科學的堅實成果,因此在長達兩千年的歷史中沒有真正意義上的進步。直到心理學家利用標準化量表獲得對于大五人格(bigfivepersonality)的量化評價后,人格分析才成為一個重要的研究分支,并在很多社會心理學的問題中發揮中心性的作用[14]。第二是“真實數據”,強調理論模型必須要服從真實數據,以對真實數據的解釋和預測能力為評價準繩。經濟學是一門高度量化的科學,幾乎所有理論模型背后都有一套對應的優美的方程,如果給定那些參數的值,很多目標變量原則上是可以計算的。
然而,大部分經濟學的研究只停留在這種虛幻的量化中,沒有和真實數據結合起來。這就導致了經典的經濟學理論陷入了優美程度大于實用程度,理想化超過了現實化的窘境。短期而言,它對于撲面而來的經濟危機無法給出正確的預判[15](但是在危機過后總能找到理論上優美且合理的解釋[16]);長期而言,它對于全世界位于發展中的百來個國家地區給不出行之有效的經濟發展建議[17]。第三是“大規模”,強調盡可能獲取能夠直接反映全體的數據樣本(全體尺度數據,populationscaledata)。數據樣本規模小,有時候帶來的不僅僅是偏差,還可能是完全錯誤的結論。
例如,一個在較小規模網絡中被多次驗證且為學術界廣泛接受的理論,是社會互動的強度(可以用電話通信的頻率和時長,以及社交媒體上評論、回復和提及的次數等指標來衡量)隨著連邊的長度范圍持續衰減[18~19],其中連邊的長度范圍可以用去掉該連邊后兩個個體的網絡最短距離衡量—這個長度范圍如果很大,就說明連邊的兩個個體處于社交網絡中距離很遠、重疊很少的兩個不同社區。但最近通過對11組全體人口尺度社交網絡數據的分析顯示,長程社交連邊的社會互動強度并不弱于短程連邊,從而從根本上挑戰了我們對社交網絡組織結構的理解[20]。
另外,待分析數據多樣性和規模的增加,會給這個新興科學分支在方法論上帶來兩個改變。一是為了分析遙感圖像、街景照片、社交網絡、文本內容這類數據,簡單的統計分析工具無法滿足需求,必須高度依賴于人工智能的技術,特別是數據挖掘和機器學習的先進技術,例如深度學習算法[21]。二是我們會接觸到很多全體尺度的數據,這時候抽樣不再是用于估計全體性質的一種必要的方法,而是我們通過對少量抽樣樣本進行更多維度的數據補充甚至人工標注后,再把這些數據用作機器學習的訓練數據,建立從原數據維度推斷出新增數據維度的模型,最終能夠推斷出全體尺度上的新增維度。
這是一種可以和傳統抽樣方法和問卷調查在方法論上具有承接關系,但是威力強得多的方法。舉個例子,我們比較容易得到一個國家全體人口尺度基于移動手機的通訊和空間移動記錄,但是獲得每個家庭收入的情況卻非常困難,一是很多較貧困地區根本就不做全民經濟普查,二是這類數據往往因為是國家機密而不輕易向科研機構開放。這種情況下,我們可以通過相對較小的成本,利用傳統的抽樣、問卷等方式,獲得一部分家庭的收入情況,再利用機器學習方法建立通過移動手機數據預測家庭收入的模型,從而推斷出所有有移動手機數據的人口的家庭收入[22~23]。
盡管這個數據不是完全準確的,但是往往精度很高,而且是用很小的成本獲得了幾乎所有人的高價值數據。這種結合全體尺度易獲得數據,少量難以獲得的高價值數據和機器學習算法,去推斷全體尺度難以獲得的高價值數據,是計算社會經濟學研究中很有代表性的一種新方法,體現了社會科學和計算機科學理念和方法的深度融合。長期而言,不管計算社會經濟學會成為一個有獨立邊界的新科學分支,還是會完全融入到社會科學中去,上面討論的這種由大數據和人工智能發展所驅動的新理念和新方法論,毫無疑問會成為未來社會科學主流的方法論,并且將不可逆轉而深刻地改變整個社會科學。
參考文獻
[1]BALLP.Criticalmass:Howonethingleadstoanother[M].London:Macmillan,2009.
[2]BARABASIAL.Bursts:thehiddenpatternsbehindeverythingwedo,fromyoure-mailtobloodycrusades[M].NewYork:Penguin,2010.
[3]周濤,韓筱璞,閆小勇,楊紫陌,趙志丹,汪秉宏.人類行為時空特性的統計力學[J].電子科技大學學報,2013,42:481-540.
[4]HUGHESRL.Theflowofhumancrowds[J].AnnualReviewofFluidMechanics,2003,35:169-182.
[5]HELBINGD.Quantitativesociodynamics:stochasticmethodsandmodelsofsocialinteractionprocesses[M].Berlin:Springer,2010.
電子論文投稿刊物:《電子科技大學學報》于1959年創刊,是中國最早的電子類期刊之一,是以電子科學為主的綜合性學術刊物。本刊刊登:電子通信、電子測量、生物電子學、雷達、電子對抗、遙控遙測、信息論、電子材料與元件、電子機械、自動控制、計算機科學與技術、管理科學、數學、物理、化學等基礎科學理論和應用科學技術的學術論文;科研成果的學術性總結;新技術、新工藝的論述;國內外科技動態的綜合評述;不同學術觀點的爭鳴等。