網約車安全事件的預測研究

2023-10-16 14:28侯立文

上海管理科學 2023年5期

余琴侯立文

(上海交通大學,上海 200030)

0 引言

在“互聯網 +”時代,網約車普遍被人們接受和使用 ,在社會中扮演著越來越重要的角色,但隨之產生了諸如網絡生態治理缺位、服務平臺規制欠缺、安全問題突出等問題,其中安全問題最受關注。近年來我國發生多起網約車乘客安全的惡性犯罪事件。2018年5月初,空姐李某在鄭州搭乘滴滴順風車途中,遭到司機殘忍殺害。2018 年8月25日,浙江省樂清市 20 歲女孩趙某也遭到滴滴順風車司機的搶劫,并被殘忍殺害。網約車安全問題頻發不僅涉及侵犯人身和財產安全、危害公共安全、妨礙社會監管制度等,更成了部分犯罪事件的導火索。同時,網約車是共享經濟的重要組成部分,是“互聯網+”的代表,網約車安全是共享經濟安全的一個縮影,研究網約車安全問題可以為網約車行業乃至共享經濟行業良性發展提供一定參考。

本研究將沖突事態嚴重程度定級預測作為研究目標。沖突事態嚴重程度定級是網約車安全事件管理中的重要環節,它連接了安全事件識別和安全事件干預這兩個環節。安全事件識別環節目的是識別出可能引發司乘沖突的訂單,本研究用沖突事態嚴重程度來量化。安全事件干預目的是在沖突升級形成負面影響之前,采取措施去阻止安全事件的進一步惡化,往往不同的沖突嚴重程度對應著不同干預措施。安全事件干預需要根據上一環節預測出的沖突事態嚴重程度采取相應措施,因而研究沖突事態嚴重程度定級對于網約車安全事件管理有著重要理論意義。另一方面,通過預測沖突事態嚴重程度定級來主動識別可能引發司乘沖突的訂單的管理模式對網約車平臺有一定啟示作用,在沖突升級形成負面影響之前,就對沖突進行風險控制管理,從被動地以司乘沖突發生后的應急方式為主的事后風控階段,提升到通過機器學習模型主動發現風險的主動防御型的事中風控階段,實現風險的內部消化,也將地有利于網約車平臺的文明創建工作,打造文明出行環境,保障與維護司乘雙方權益。因此,研究網約車司乘沖突嚴重程度定級具有一定理論意義。

目前網約車安全領域的研究并不多,管理學界已有研究主要關注網約車安全現狀、網約車風險及規避手段、網約車安全問題及其影響,具體見表1。大多數研究從定性角度出發來研究網約車安全風險,沈霄鵬和王婷(2018)通過定性分析、案例分析來探討網約車行業中道德缺失現象及治理對策,孫興軍(2016)通過定性分析來研究網約車風險及規避手段。定量角度的話,主流做法是通過問卷調查來收集用戶對網約車安全的認知,Lee(2017)通過問卷調查結合結構方程模型來研究乘客對網約車相關的行程保障、人身安全、額外費用(索高價)三類風險的認知和這種認知對實際網約車使用的影響。目前,國內外還未有實證研究來探討網約車司機和乘客在網約車服務過程中產生沖突的文獻,主要有以下兩個難點:第一點是沖突新聞收集的難度,從各大信息資訊平臺盡可能多地收集來源可靠的新聞是一項費時費力的工作;第二點是對于沖突新聞后續的文本分析帶來的難度。因而,本文從實證分析出發來研究網約車安全問題中的司乘沖突嚴重程度定級預測。

表1 文獻匯總

1 安全事件過程分析

1.1 安全事件典型過程

以下為一個完整的司乘沖突新聞:“某日,司機A駕駛網約車將乘客B送達本市C小區附近,乘客B在下車過程中與司機A因XX發生口角,后相互推搡、廝打。其間,司機A用拳頭擊打乘客B頭面,致乘客B面部多處受傷。經法醫學鑒定中心鑒定,乘客B輕傷二級。經乘客B報警,公安機關趕至現場,并于當日將司機A傳喚到案?！闭麄€沖突過程可由事件屬性來刻畫,具體可由以下四元組來描述:沖突屬性、沖突緣由、沖突行為、沖突嚴重程度。沖突屬性包括沖突時間、地點、角色三項。引發司乘沖突的緣由多樣且復雜,和具體的沖突場景緊密相關。沖突行為是沖突雙方在沖突過程中采取的措施,雙方既有可能互不相讓進而沖突升級引發肢體沖突,也有可能各退一步。而沖突嚴重程度直接受沖突屬性、沖突緣由、沖突行為影響。對于這類型的具體測量,目前并沒有形成一個較為系統的劃分標準,基本依據人的主觀經驗判斷。對于沖突烈度的歸類,也亟待權威部門制定相應的劃分標準,以按沖突的不同程度采取相應的措施。

達倫多夫在論述社會沖突的程度時,提出強度和烈度的概念。其中,強度表示社會沖突過程中各沖突主體投入力量的程度,包括人數多少、權利大小等因素;烈度表示沖突的方式,如和平協商、暴力解決、社會行動等。李濤、蘇曦凌根據沖突程度對社區沖突進行類型劃分時,基本參考達倫多夫提出的強度和烈度兩種概念。張蘇在關于交通沖突程度的研究中指出交叉口交通沖突嚴重程度可由單位時間事故發生概率的數學期望表示,也可以由沖突本身表現出來的特征來界定。本研究主要就司乘沖突的嚴重程度進行定級預測,在提取特征時參考達倫多夫提出的沖突強度和沖突烈度兩個概念。

1.2 變量定義

本文的被解釋變量為網約車司乘沖突事態嚴重程度等級,根據上述四元組進一步細化,初期共提取出16個特征,如表2所示。對于大部分特征,本文采用文本挖掘手段通過Python編程語言來進行特征提取,對于無法自動化提取的特征,采用人工手動標注來實現全量數據的特征提取。其中,特征Action_set指的是沖突雙方在沖突過程中用的動作,本研究從沖突過程中可能引發的沖突動作出發,定義了操作不當、酒駕、口角、盜竊、言語行動騷擾、猥褻、搶劫、非持械傷害、持械傷害、強奸、殺人以上11個沖突動作的集合,給每個動作賦予一個嚴重等級,數值越大表示沖突事態越嚴重。為了使不同動作對應的沖突事態嚴重程度盡可能有區別,比如讓殺人和口角之間對應的分值差距盡可能大,可使用一個轉換函數來重新界定每個動作的嚴重程度。本研究采用的是數字2的冪次方來表示。本研究將各動作對應的嚴重等級定義如下:操作不當:1;酒駕:2;口角:2;盜竊:3;言語行動騷擾:3;猥褻:4;搶劫:4;非持械傷害:4;持械傷害:5;強奸:5;殺人:6,則各動作對應的嚴重分數按照2的冪次方計算如下:操作不當:2;酒駕:4;口角:4;盜竊:8;言語行動騷擾:8;猥褻:16;搶劫:16;非持械傷害:16;持械傷害:32;強奸:32;殺人:64。如果一條新聞中涉及兩個及以上的動作,則該新聞司乘沖突嚴重程度對應的分數為各動作對應分數的加和。

表2 變量匯總

表3 Kappa系數分類標準

2 模型

2.1 數據收集與特征工程

以“網約車”為核心關鍵詞,分別以中國裁判文書網、互聯網新聞庫和圖書館文獻庫為范疇查找資料,從不同信息源來進行資料的收集。中國裁判文書網是司法機關統一公布各級人民法院生效裁判文書的官方網址,互聯網新聞庫包括今日頭條、微博等資訊平臺。隨后,為了保證有效信息的提取,逐條閱讀每條新聞,篩除掉不滿足四元組定義的新聞,僅保留滿足四元組定義的新聞,以確保有效信息的提取。隨后,再對所有搜集到的資料進行內容閱讀、噪聲數據清洗、分類、要點提煉,形成可用于該問題研究的數據基礎,共收集了從2015年1月至2020年10月全國范圍內網約車司機和乘客發生沖突的新聞161條,其中刑事案件56條。

在初期特征提取步驟中,對于大部分特征,采用文本挖掘手段通過Python編程語言來進行特征提取,對于無法自動化提取的特征,采用人工手動標注來實現全量數據的特征提取。我們希望盡可能提取更多的特征,可提供更多信息用以準確描述問題,使得模型解釋性更強。但當維度超過一定值時,會引起“維度災難”,在保證學習算法預測精度前提下,訓練所需樣本會隨著維度提升呈現指數形式提升。對于161條數據和16個特征易引發“維數災難”,模型易引發過擬合問題,需從原始特征中篩選出“好的”特征,剔除掉“不好的”特征?！昂玫摹碧卣髦笇δＰ拓暙I度大的、與任務相關性強的特征?！安缓玫摹碧卣髦溉哂嗵卣?、無關特征和噪聲等。本文采用決策樹模型來進行特征提取,在已知數據上構建決策樹模型,決策樹每次分叉都會選擇對信息熵影響最大的特征,根據特征分叉的先后順序模型可以獲得每個特征所屬的權重,按照特征對應權重由大到小排列,可以獲得特征重要性排序。

如圖1所示,可以看到排名靠前的3個特征按照特征貢獻度從大到小分別是沖突事件雙方采取的行動集合得分、沖突事件中過錯方所受處罰、受害者人身傷害狀況,對應的特征重要性分別為0.2462、0.1983、0.1233,這也與社會大眾判斷一起司乘沖突嚴重程度的經驗相一致,沖突事件中沖突雙方采取的過激肢體行動越多、越嚴重,則司乘沖突事態越嚴重;沖突事件中過錯方所受司法處罰越重,則司乘沖突事態越嚴重;受害者所受人身傷害越重,則司乘沖突事態越嚴重。排名靠后的5個特征分別是司機身份狀態、司機神志狀態、受害者身份、有無前科、受害者在沖突過程中遭受的財產損失,這5個特征對模型的重要性均小于0.02,分析認為是這5個特征大部分都是默認值,所取的值較少,因而不利于模型學到更有用的信息。以受害者身份這一特征為例,95%的受害者是乘客,5%的受害者是司機,這一特征給模型帶來較小的貢獻度。我們設置閾值為0.02,特征貢獻度大于閾值的特征將會保留用于后續操作,特征貢獻度小于閾值的特征將會舍棄掉,以此達到特征篩選的目的。

圖1 特征重要性柱形圖

用決策樹算法篩選出更重要的特征后,下一步對各列特征進行特征縮放。為了消除指標之間的量綱影響,一般需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理后,各指標處于同一數量級,適合進行綜合對比評價。特征縮放包含兩種主要的方式:Min-Max標準化和Z-score標準化。轉化函數分別如式1、2所示。本研究采用兩種特征縮放方式進行對比驗證。

2.2 模型訓練

司乘沖突嚴重程度定級中,本研究采用百度眾測平臺來為新聞中涉及的司乘沖突嚴重程度進行標注?！鞍俣缺姕y”是國內最大的數據標注平臺,提供專業、高質量、高標準的數據標注服務。本研究將自己的新聞標注需求發布在百度眾包平臺,讓標注人員按照自己的先驗看法對每條新聞中司乘沖突嚴重程度進行標注,其中1～4表示從不嚴重到最嚴重。為了保證標注人員對每條新聞沖突嚴重程度標注的獨立性和先驗性,本研究告知標注人員按照他們個人對一起司乘沖突嚴重程度的先驗看法來標注。每一條新聞沖突嚴重程度取決于所有標注員給的標注里的眾數。

本次研究對象是一個多分類問題,即預測網約車司乘沖突嚴重等級程度,所以選擇以下經典分類算法——邏輯回歸、隨機森林、SVM、樸素貝葉斯,進而比較哪個模型更適合本次研究對象的樣本。多分類評價指標其中一種方法是將多分類問題轉化為多個二分類問題進行討論,多分類的精確率、召回率依據每個標簽的精確率、召回率再取其加權平均得到;還有一種是直接定義的多分類指標。本研究采用的是Kappa系數,借用Cohen提出的Kappa系數分類評價標準。

2.3 模型效果展示

表4顯示了使用邏輯回歸、樸素貝葉斯、SVM、隨機森林四種算法,以及每種算法使用Min-Max方法和Z-Score方法進行無量綱化后的精確率、召回率、Kappa系數對比。研究發現,在三種不同分類算法中,Min-Max標準化和Z-score標準化后相比未使用特征縮放的模型,效果均有略微提升。在使用邏輯回歸、隨機森林的情況下,模型驗證不同特征處理方法的識別率都很高,說明數據模型構造得都很合理,在驗證集的表現良好。而在貝葉斯算法中,模型精確率、召回率不足50%,Kappa系數也落在分類效果一般的區間,說明構造模型的泛化能力很差。

表4 模型預測識別準確率對比

本研究中貝葉斯算法效果不太理想和隨機森林、邏輯回歸效果理想也是可預見的。貝葉斯算法假定所有輸入屬性彼此是獨立的,但現實中經常發生不滿足條件獨立性的情況。在本研究中變量之間并不滿足相互獨立的情況,比如Personal_injury和Punishment成正相關。而隨機森林算法是一種集成算法,它隨機選取不同的特征訓練樣本,生成大量的決策樹,然后綜合多棵決策樹的結果來進行最終的分類,因而在數據上表現優異。

3 討論和啟示

本文立足于中國網約車安全治理體系下的司乘沖突事件頻發的現狀,從實證分析角度出發,對中國法律文書網和權威資訊網站的網約車司乘沖突新聞進行了深入研究。在機器學習的研究上,深入研究和運用了邏輯回歸、隨機森林、SVM、貝葉斯機器學習等算法,并在深入研究可能引發司乘沖突事件的基礎上運用大量特征工程方法來加工樣本數據,訓練出了具有高識別能力的機器學習模型。研究證明了網約車平臺通過機器學習來識別可能引發司乘沖突的訂單的管理模式是完全可行的,在形成負面影響之前,就對沖突進行風險控制管理,這屬于主動防御性風險控制管理,從被動地以司乘沖突發生后的應急方式為主的事后風控階段,提升到通過機器學習模型主動發現風險的主動防御型事中風控階段,實現風險的內部消化,也將更有利于網約車平臺的文明創建工作,打造文明出行環境,保障與維護司乘雙方權益。

但本文的研究還存在以下不足:(1)在數據方面,本文的研究數據為2015年1月起網約車司機和乘客發生沖突的新聞,共收集到161條新聞,因此在后續研究中可以繼續收集有關這方面的新聞來擴大樣本量。數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。(2)在特征提取方面,本研究從沖突發生時間、地點,沖突雙方年齡、狀態,沖突所用工具,沖突事由,沖突發生后所造成的財產損害、人身傷害,施害者受到的處罰等盡可能對沖突進行事件畫像,初期共提取出16個特征,后續研究可在數據量有一定增加后,再繼續提取更多的特征以提供更多信息用以準確描述沖突事態,使得模型解釋性更強,特征研究結果也將更加充滿說服力。(3)在算法方面,本文應用了隨機森林算法、樸素貝葉斯算法、SVM、邏輯回歸算法,但不能說明這些算法是最佳算法。如數據量增加,可嘗試構建一份司乘沖突的語料庫,再基于語料庫采用LDA算法,進行主題挖掘。