時間:2020年08月26日 分類:科學技術論文 次數:
摘 要:交通大數據經常面對數據刪失、截尾、缺失等問題。生存分析模型可以很好地處理該問題,在交通領域逐步推廣。它將事件 結果與出現這一結果所經歷的時間結合,可以判斷事件發生或者結束時間的分布或探究解釋變量對生存時間的影響。國內外許多研究 通過生存分析的靈活應用及拓展,為很多實際交通問題提供了解決方法和指導意見。文章首先介紹了主要生存分析的適用性及擬合優 度比較方法,并介紹若干交通領域生存模型應用案例。
關鍵詞:生存分析;適用性;擬合優度;交通工程
引言
生存分析模型也稱為持續時間模型,作為基于實驗或 調查數據分析生存時間的一種統計方法,近年來已逐步應 用于交通領域的擁堵[1],高峰[2]及等待時間[3]等實際問題的 研究。研究對象的狀態可能為兩種以上,抽樣方式和分布 往往具有多樣性且一般存在刪失數據。本文介紹生存分析 的基本概念,主要模型的適用性及擬合優度的評判標準, 結合現有交通研究進行案例分析。
1 生存分析
1.1 生存時間
交通預測面臨很多動態預測需求。例如高峰期擁堵開 始至結束的持續時間,行人到達交叉口至開始闖紅燈所經 歷的等待時間等。這些例子都包括起始事件和結束事件, 事件經歷的時間即生存時間。
1.2 生存函數
生存函數又稱累計生存率,表示單個事件的生存時間 T 大于時間 t 的概率,即單個事件在時間 t 之后仍然存活的 概率。如果隨訪數據中不存在截尾數據,生存函數可以表 示為: S(t)=P(T>t)= ∞ 乙t (f u)du (1) 如果隨訪數據中出現截尾數據,需要計算不同分段下 單位時間的生存概率 p(k k=1,2,…,t),則S(t)=p1×p2…×pk (2)
1.3 概率密度函數和風險函數
生存分析概率密度函數定義為事件在 t 時刻結束的概 率,概率密度函數為非負函數,各時刻結束概率繪制成的 曲線與時間軸之間的面積為 1。公式表示為 風險函數表示事件的生存時間到達 t 后,在(t,t+△t)這 一時間區間內瞬間“死亡”的概率,即 2 主要生存分析模型及其適用性 生存分析模型有三種形式:非參、參數及半參模型。選 擇時主要取決于想要預設的生存函數類型以及協變量如 何對生存時間產生影響。非參生存方法主要用于對隨訪數 據進行統計性描述,本文主要介紹半參數和參數生存模型 的適用性及其案例。
2.1 半參數生存模型
2.1.1 模型介紹
半參數生存模型首次提出于 1972 年[4],它不需要預先 設定生存時間的分布,但卻可以最終通過模型反映生存時 間的變化以及協變量對生存時間的影響,近年來已成為最 受歡迎的生存模型。 其中,Cox 比例風險模型 (Cox proportional hazardsmodel)最受歡迎,是“穩健”模型,調整后的生存曲線可以 良好的估計各種數據并獲得風險比,給出了可靠的擬合結 果。
在應用于實際問題之前需確保數據滿足風險概率假 定,即加入模型的協變量對生存率的影響不隨著時間而改 變。其風險函數表達式為 (5) 式中,h(0 t)為基礎風險函數,未指定任何分布。不包含 時間的 X 的指數分布確保了模型始終給出非負的風險估 計。PH 假定即基準風險 h(0 t)是 t 的函數而與 X 無關,指數 部分是 X 的函數,與 t 無關。半參數模型在滿足 PH 假定的 前提下具有普適性和較高的靈活性,Cox 比例風險模型沒 有限定生存時間的分布,也就無法得到任意時刻的概率密 度值。因此估計協變量的參數時,使用偏似然函數代替極 大似然法。
2.1.2 案例分析
半參數生存分析由于其獨特優勢而被廣泛應用跟馳 時間、救援時間、等待時間研究。趙海月(2018)[5]應用 Cox 比例風險模型研究特殊天氣下信號交叉口的行人穿越行 為,將生存時間定義為行人在紅燈期間到達道路交叉口等 待區至離開等待區的時間跨度,將行人選擇遵守法規等待 至綠燈時離開的數據定義為“刪失”。
該研究探討了出行時 段、個人特征、行為變量三類因素對行人忍耐時間的影響, 分析結果對提升行人過街安全具有一定現實意義。 楊茜(2018)[6]使用 Cox 比例風險模型對相同問題展開 研究,呈現了較好地模型擬合效果且結構完整。在進行 PH 假定檢驗的過程中,該論文指出若某些協變量不滿足要 求,可以考慮將其從比例風險中剔除。但事實上在許多實 際問題研究中,可以通過對 Cox 比例風險模型地適當變形 來解決。
張彥寧(2020)[7]等人在對駕駛員跟馳反應延遲時 間的研究中就使用了分層 Cox 模型進行分析。近年來,為 應對隨訪數據中協變量的多種問題,研究中經常被使用的 半參數生存模型還包括分層 Cox 模型,Cox 共享脆弱模型, 帶有時間相關變量的 Cox 風險模型等。
2.2 參數生存模型
2.2.1 模型介紹
當生存時間的分布明確,參數模型是最佳選擇。參數 生存模型需要給出生存時間服從特定的參數分布。若某生 存分析中僅有協變量性別(女性=0,男性=1),而在任何特 定時間內受訪者均處于“存活”,半參數模型無法像參數模型一樣完成 Kaplan-Meier 估計。 非參數和參數方法比較了在“死亡”發生節點的受訪 者,參數方法不基于結果進行此類比較,而是使用概率描 述了在給定的時間范圍內,受訪者在整個時間間隔中發生 的情況。
參數生存分析同樣具有分層、脆弱等多種變化以 適應數據和變量的復雜性,主要的參數分布有指數分布、 Weibull 分布、對數 Logistic 分布、伽馬分布等,風險函數和 生存函數的表達形式如表 1 所示。 其中 λ 為尺度參數,決定分布的離散程度;ρ 為形狀參 數,決定分布的整體形態。
2.2.2 案例分析
參數生存模型相對于半參數生存模型來說可以獲得 更好的數學形式。李明(2015)[8]定義生存時間為從零點開 始至居民出發去購物為止所經歷的時間段,引入了個人特 征、家庭結構和出行方式三類變量研究購物出發時間的影 響因素。在利用赤池信息準則、Cox-snell 殘差法比較擬合 優度后,最終選擇 log-logistic 模型進行預測并制定了相應 的交通管理措施。
生存分析中的脆弱因子為不同個體或群體間的異質 性提供了很好的解決方案。該概念由 Vaupel 等人在 1979 年提出,將隨機效應引入模型可以解決未觀測到的因素對 模型結果產生的影響。生存分析中的脆弱因子一般服從伽 馬或逆高斯分布。何清廉(2018)[9]在對信號交叉口黃燈期 間停車行為的研究中將脆弱因子引入對數正態模型中,打 破了駕駛員均質性的假設,使模型結果更加可靠。
3 擬合優度評估
3.1 赤池信息準則和貝葉斯信息準則
赤池信息準則(AIC;1973)和貝葉斯準則(BIC;1978) 是現階段應用最廣泛的模型選擇標準,利用似然估計值比 較不同分布模型的擬合程度,都兼顧了模型簡單性和擬合 優度之間的平衡,并帶有懲罰項以防止過度擬合。從 Raftery(1995)[10]對 AIC 和 BIC 的比較中認為當樣本量足夠 大時,BIC 選擇正確的模型而 AIC 選擇了比真實模型更復 雜的模型。參數和半參數生存分析之間無法使用 AIC、BIC 進行橫向比較。 AIC=-2lnL+2(k+c) (6) BIC=-2lnL+klnm (7) 其中 L 為似然函數,k 為模型協變量的個數,m 為樣本 數量。
3.2 Cox-Snell 殘差圖
為評估加入協變量后的模型是否合適,比較參數、半 參數模型之間的擬合效果,Cox-snell 殘差(Cox and Snell, 1968)[11]被應用于生存分析模型評價。 (8) 其中 代表 ta 時刻的累計風險函數,β 代表協變 量 X 的估計系數。
3.3 Harrell's C 指標
Harrell's C 指標(Harrell,1982)[12]針對右刪失的比例 風險模型開發,后逐步擴展至 Cox 比例風險模型等。基于 生存模型預測的較早“死亡”受試者生存時間較短,反之亦 然這一特性,該統計量通過所預測的受訪者死亡順序與實 際一致的概率 C 來比較半參數生存分析的擬合效果。對任意 t>0,一致性的表達形式為其中 i,j 表示樣本中的任意一對觀測者;Ti,Tj 表示真實的“死亡”時間; 表示預測的死亡時間。當 C=0.5 時, 模型不足以基于隨訪數據進行預測;當 C=1 時,模型具有完全預測能力,可以很好的擬合生存數據。
公路論文投稿刊物:西南交通大學學報讀者對象主要為國內外科技工作者、工程技術人員、高等院校理工科教師和學生等。
4 結束語
生存分析利用統計學相關理論,在探究生存時間影響 因素的過程中將事件結果與所經歷時間相結合,這種獨特性使其成為了現代統計學的一個重要分支而被廣泛研究。 本文首先介紹了生存分析的基本概念,回顧了生存模型的 主要類型和適用性,最后總結了不同類型生存分析所適用 的擬合效果評估準則和指標。在探究生存模型在交通領域 具體應用的過程中,本文發現了現有研究的不足并結合實例進行案例分析,希望能為后續研究提供理論基礎。
參考文獻:
[1]熊勵,陸悅,楊淑芬.城市道路交通擁堵預測及持續時間研究[J]. 公路,2017,62(11):125-134.
[2]石莊彬.基于生存分析的軌道交通客流高峰持續時間區間預測 [A]. 中國智能交通協會. 第十二屆中國智能交通年會大會論文集 [C].中國智能交通協會:中國智能交通協會,2017:251-260.
[3]李志銀.信號交叉口行人穿越行為建模與分析[D].北京交通大 學,2017.
[4]Cox DR. Regression models and life -tables. Journal of the Royal Sta- tistical Society. Series B,1972,34(2):187-220.
[5]趙海月.下雨天氣對信號交叉口行人穿越安全行為的影響分析 [D].北京交通大學,2018.
作者:宮小雯,劉 鍇