考慮數據異質性的海上通道事故嚴重程度研究

2023-02-22 03:01李寶德

運籌與管理 2023年12期

李寶德, 呂靖, 李晶

(大連海事大學交通運輸工程學院,遼寧大連 116026)

0 引言

海上事故指的是一種不希望發生的船舶異常事件,經常導致人員傷亡、船舶損傷或者各種財產損失[1]。盡管國際海事部門已經為運輸安全做出了巨大的努力,但是海上運輸通道發生事故的風險依然存在。因此,探究影響海上通道事故嚴重程度的因素,對于及時有效的應急響應,降低事故造成的損失具有重要意義。

海上事故發生后的演變是一個復雜的過程,受到眾多因素的影響。目前許多學者從不同視角探究了海上事故嚴重程度的影響因素。比如,WENG和YANG[2]研究發現在惡劣天氣和黑暗條件下發生的碰撞、火災/爆炸、接觸等事故其發生致命事故的概率和死亡人數都較高。WANG和YANG[3]以事故預防為視角,開發了基于貝葉斯網絡的事故嚴重程度評估模型,得出事故類型、位置、船舶類型等影響航道事故嚴重程度的關鍵風險。EROL等[4]對伊斯坦布爾海峽發生的事故研究發現,無論船舶大小,當海峽天氣狀況不佳時,事故嚴重程度會增加。陳興偉等[5]采用結構方程模型探究了影響因素與事故嚴重程度之間的關系,結果表明客觀因素與事故等級之間存在明顯的影響方向性?？偨Y之前研究可以發現,大多數是基于獲得的數據以自身研究的角度直接分析因素對事故嚴重程度的影響,對于影響因素對事故嚴重程度的交互影響及可能存在的干擾因素的影響的考慮相對缺乏。

然而,考慮到海上事故可能發生在不同的條件下,這導致事故動力學本質的異質性,以及某些特定因素對事故后果的影響程度不同甚至方向相反。比如,WENG和YANG[2]研究認為船舶類型不能充分解釋對事故后果嚴重程度的影響,而WANG和YANG[3]研究發現船舶類型對事故后果嚴重程度影響顯著,特別是漁船。因此,一些研究為了減少異質性的影響,關注某一特定特征情況下的研究。比如,WENG[6]等研究影響兩船碰撞嚴重程度的因素,得出春季、能見度低和夜間是導致船舶碰撞嚴重程度高的重要因素。ANTAO和SOARES[7]采用貝葉斯網絡評估了不同天氣條件下船舶事故中的人為失誤因素。然而,基于具體特征的分析不能保證所選事故數據的最大同質性,因此,它對降低未觀測的異質性作用不大。

聚類分析已經被證實可以用來識別同質類別和降低數據的異質性[8]。特別地,對于多分類問題,與潛在類別聚類相結合的多項logit模型比將單個多項logit模型綜合應用于整個數據更有效[9]。目前,基于聚類的logit模型在交通事故領域有著豐富的應用[10]。然而,此種方法在海上通道事故分析中卻很少。另外,先前采用聚類的logit模型很少考慮每個聚類類別內的異質性,而混合logit模型能夠通過考慮影響因素的潛在變化來解決未觀察到的聚類類別內的異質性[9]。

本文在現有研究的基礎上,充分考慮海上事故數據的異質性,旨在構建一種結合潛在類別聚類和混合logit模型的兩步模型來分析影響海上事故嚴重程度的因素?；趶闹袊Ｊ戮职l布的事故調查報告中提取的數據驗證模型的有效性。通過估計的參數和相關的邊際效應結合起來解釋所建立模型的重要變量。此外,通過采用聚類和沒有采用聚類(全數據)的混合logit模型估計的結果對比,來揭示其中隱藏的影響變量。

1 模型構建

如圖1所示,構建的兩步模型包括潛在類別聚類和混合logit模型。潛在類別聚類是一種概率模型,它假設整個數據被一個未觀察到的或潛在的分類變量劃分為排他性的潛在類別[11]。為了更好地捕獲因素對海上事故嚴重程度影響的未觀察到的異質性。本研究第一步采用潛在類別聚類進行分析,但是每個聚類類別內仍可能存在異質性,因此,本研究第二步采用混合logit模型來分析第一步獲得的每一個聚類。具體每一步的模型構建如下:

圖1 海上通道事故嚴重程度分析兩步模型

1.1 海上通道事故嚴重程度潛在類別聚類分析模型構建

(1)

其中,采用期望最大化算法對參數進行極大似然估計。另外,基于貝葉斯定理,一個事故的后驗概率可以表述為:

(2)

在潛在類別聚類分析中,類別nc的最合適數量是未知的,通過嘗試不同聚類數量的模型,我們可以找到最合適的聚類數量。根據事故的特征,我們可以計算它們的最大后驗概率,然后將它們分配到一個潛在的類別。在這個過程中,選擇聚類的數量是為了最小化分配誤差,可以通過一些信息準則來測量模型的分配精度,包括BIC,AIC,CAIC。BIC,AIC和CAIC的統計可以在考慮復雜性的同時衡量模型的適用性,BIC,AIC,CAIC值低對應的聚類數量具有較高價值,然而當分析大樣本時,增加聚類的數量可能并不總是達到最小值,因此有的研究建議使用不同模型之間的BIC的百分比減少來衡量[5]。熵(Entropy)度量本質上是個體后驗概率的加權平均值,范圍在0和1之間,熵度量值越大,表明潛在的聚類分離越好。本研究使用AIC,BIC,CAIC和熵來識別合適的聚類數量。

1.2 基于聚類的混合logit模型構建

海上事故發生后可能造成的后果的嚴重程度可以采用不同的等級來進行衡量。因此,可以將基于潛在類別分析獲得的不同的同質類別,分別構建影響因素與嚴重程度之間相關關系的離散選擇模型。具體地,描述事故嚴重程度的效用函數可以表示如下[12]:

Sij=βjXij+εij

(3)

式中,Sij表示事i故為嚴重程度j時的效用函數;Xij為事故嚴重程度影響因素集;βj為影響事故嚴重程度因素的參數向量;εij為誤差項。當εij服從廣義極值分布型I(Gumbel type1)時,則事故i為嚴重程度j時的概率可表示為:

(4)

式中,J為事故嚴重程度等級集合。相比于多項logit模型,混合logit模型認為βj不是固定不變的,而是符合一定分布的隨機向量。則概率密度函數可表示為:

(5)

式中,f(β|φ)為隨機參數β向量的概率密度函數;φ為概率密度函數的參數向量。關于混合logit模型的參數估計,本文可以采用極大似然估計法。

此外,本研究還對獲得的模型進行邊際效應分析和擬合優度檢驗。邊際效應分析的目的是為了評估混合logit模型中重要變量對事故嚴重程度概率的影響。對于連續變量來說,邊際效應表示結果的概率相對于該變量單位變化的改變值,而二元變量的邊際效應表示自變量從編碼虛變量0到1的概率變化。這兩種類型變量的邊際效應可以分別用如下公式(6)和(7)表示[13]:

(6)

(7)

(8)

式中,LL(β)和LL(0)分別為收斂時和僅包含截距項的對數似然函數值。ρ2的值越大說明模型擬合的效果越好。對于模型之間的擬合優度比較,可以采用似然比與一定置信水平和自由度的卡方臨界值進行比較來分析。似然比計算公式為:

(9)

式中,LL(βaggregate)在本研究為全數據模型收斂時的對數似然函數值。在本研究為LL(βclusterl)為第l個聚類模型收斂時的對數似然函數值。

2 實證研究

2.1 數據收集及預處理

本文研究的數據來源于中國海事局官網發布的海上事故調查報告。我們從中篩選了在2014年到2020年間的發生在海上運輸通道上的765份用于分析。

關于事故嚴重程度,根據我國《水上交通事故統計辦法》,按照人員傷亡情況、直接經濟損失或者水域環境污染情況將事故分為小事故、一般事故、較大事故,重大事故和特別重大事故。根據我們的統計時間段,特別重大事故沒有發生。因此,為了便于研究,本文將重大事故和特別重大事故定義為非常嚴重事故(VS)、較大事故定義為嚴重事故(S)、一般事故定義為輕微嚴重事故(LS)、小事故定義為海上事件(MI),具體事故嚴重程度的劃分請參閱《水上交通事故統計辦法》。

關于影響因素的選取及分類,主要參考了之前的相關研究[2,3,14]。對于其中的缺失值,采用均值法進行了補充,具體結果見表1。其中需要說明的是航行環境指的是航行地理環境,船舶流指的是事故發生時周圍船舶數量;事故類型的分類是依據《水上交通事故統計辦法》,將其劃分為7類;船舶類型的分類是參考了歐洲海事安全局發布的事故統計報告中對船舶類型的劃分標準。

2.2 結果及討論

2.2.1 潛在類別聚類結果及討論

使用表1所有的影響事故嚴重程度變量,對不同聚類數(1-8)的模型進行了初步估計,結果如圖2所示。三種信息準則值隨著聚類數的增加而降低。然而,從第四個聚類開始,BIC,AIC和CAIC的信息準則值下降百分比不到1%,說明四個聚類能夠良好的分離數據。此外,四個聚類對應的熵值為0.966,表明模型具有良好的適應性。因此,海上事故數據分為四個聚類類別以供進一步分析。

圖2 不同聚類數下的AIC,BIC,CAIC和熵值

表1 關鍵影響變量選取及分類

表2 聚類中關鍵特征變量及分布(%)

表2展示了用于描述每個聚類選定的特征變量及其分布情況。從中可以看出,每個特定的聚類中都有明顯不同其他聚類占比的變量,需要注意的是有些變量占比可能會在不同聚類之間都很高。例如,在聚類1和聚類2中,發生的事故類型主要為碰撞,占比達99%以上,而其他聚類在相同條件下碰撞事故占比不到10%,因此,變量“事故類型:碰撞”可以將聚類1和聚類2與其他聚類區分開來。另外,變量“船員:配備足夠船員且有有效的適任證書”在聚類1中占比最高并且與在其他聚類中占比相比相差很大,說明這個變量可以將聚類1與其他聚類區別開來。同樣的,每個聚類可以通過自己特有的影響變量分布情況將其與其他聚類分離開來,代表了一種特定情況下的具體事故類型。需要說明的用于描述每個聚類的影響因素與影響事故嚴重程度的重要因素之間沒有關系,將在接下來混合logit模型中揭示影響事故嚴重程度的重要因素。

表3 輕微嚴重事故模型參數估計結果

2.2.2 混合logit估計結果及討論

對于通過聚類獲得的四個聚類類別及全數據分別進行了建模分析。采用逐步向前回歸技術對構建的混合logit模型進行標定,在95%置信水平下,每個模型獲得的顯著影響變量參數估計的結果見表3-表5(其中,表中“-”表示該置信水平下不顯著)。對于事故嚴重程度,本文選擇海上事件作為參考項;而對于影響變量,本文以表1分類描述的最后一項作為參考項。研究發現,在聚類1,2,3和4中,影響變量對海上事故嚴重程度具有統計上顯著的隨機影響。結合估計出的顯著變量,為進一步分析各個因素對海上事故嚴重程度的影響,對所有重要變量的邊際效應進行了計算,具體獲得的邊際效應值見表6-表10。

表4 嚴重事故模型參數估計結果

首先根據估計的結果,可以發現一些重要的影響事故嚴重程度的因素。比如事故類型為自沉,相比于其他事故類型,對事故嚴重程度為輕微嚴重、嚴重和非常嚴重都具有顯著影響,說明這個變量是對事故嚴重程度的影響一個非常重要變量,這個與汪飛翔等[14]的研究結果相一致。此外,與WANG和YANG[3]研究得出的結論相同,差的航行環境、事故發生在夜晚(見表3-表5)也會對事故嚴重程度產生重要的影響。另外,本文研究發現船舶流少相對于流多會增加嚴重事故的程度(見表4聚類4),可能原因是事故發生后,如果周圍參與救援的力量越多,越可能降低事故嚴重程度。另外,通過估計模型間的比較分析,可以得出如下發現:

表5 非常嚴重事故模型參數估計結果

第一,可以發現基于異構數據的海上事故分析可能會掩蓋一些重要的影響因素。例如,表4中的變量液體貨船、船齡6-10年和11-15年、裝載情況正常、風5-7級、航行環境差以及船舶流量少在全數據模型中沒有統計學意義。然而,根據聚類中的模型這些變量會對輕微嚴重程度事故產生不同程度的影響。同樣情況在嚴重事故以及非常嚴重事故的模型參數估計中也存在(見表4和5)。

第二,基于聚類的模型能夠揭示影響變量對不同特定情況下的事故嚴重程度概率的變化。例如,發生的事故船舶類型為漁船,根據全數據模型造成輕微嚴重事故的概率將增加3.5%(見表6),而根據聚類1、聚類2和聚類4模型造成輕微嚴重事故的概率分別增加11.3%(見表7)、12.6%(見表8)和5.7%(見表10)。此外,相比于船齡大于等于20年,發生的事故船舶船齡在11-15年,根據聚類1模型造成嚴重事故的概率將下降6.2%(見表7),而根據聚類4模型造成嚴重事故的概率將下降13.8%(見表10)。以上兩個例子說明了僅僅通過全數據模型會忽視這種差異,而基于聚類的模型能夠更加完整的揭示這種差異。

表6 全數據模型顯著變量平均邊際效應

表7 C1模型顯著變量平均邊際效應

表8 C2模型顯著變量平均邊際效應

表9 C3模型顯著變量平均邊際效應

表10 C4模型顯著變量平均邊際效應

第三,聚類模型甚至可以揭示某些變量對事故嚴重程度影響方向的不同。例如,在表4的聚類3模型中顯示船舶流少會降低事故嚴重程度,而在聚類4模型中顯示相反的結果。具體地,結合表9和10,在聚類3模型中事故發生時周圍船舶流少將會使嚴重事故的概率降低9.3%,在聚類4模型中會使概率增加5.7%.

2.2.3 模型的擬合優度結果

表11展示了計算獲得的用于測量每個模型擬合優度的參數,得到的似然比值為102.03大于95%置信水平下自由度為29的卡方值(42.56)。說明了基于聚類的模型優于全數據模型。另外從ρ2值可以看出每個模型都有很好的擬合性。

表11 擬合優度測量參數

3 結論

本文充分考慮到海上事故數據的未觀測到的異質性,構建了結合潛在類別聚類和混合logit的海上事故嚴重程度分析模型。研究表明了基于聚類的混合logit模型可以更加有效的揭示影響因素與事故嚴重程度的關系。通過比較分析獲得如下結論:(1)基于聚類的模型可以揭示新的信息,包括在全數據模型中被忽略的重要影響因素以及在基于聚類模型中具有不同影響程度的因素;(2)基于聚類的模型可以揭示不同聚類類別下影響因素對海上事故嚴重程度的影響的差異。本文依靠從海上事故報告中搜集的信息,獲得的數據有限。因此,在未來研究中,隨著數據的不斷完善可以進行更加完整的分析。