?

基于集成學習模型的交通事故嚴重程度時空預測

2024-03-25 15:26柳一航沈航先
科技創新與應用 2024年8期
關鍵詞:交通安全機器學習交通事故

柳一航 沈航先

摘? 要:為探究區域交通事故時空特征,精準預測事故嚴重程度,給交通運輸主管部門提供決策支持,以英國交通事故統計數據作為研究基礎,首先,將交通事故時空特征數據轉化為網格化數據,并對空間特征進行二維卷積,利用時間特征合并二維卷積為三維卷積,解決網格沖突問題;其次,利用卷積神經網絡(CNN)、長短期記憶人工神經網絡(LSTM)模型的工作原理建立Stacking模型的基學習器和元學習器;最后,輸出結果傳入分類與回歸樹(CART),構建完整的事故嚴重程度預測集成學習模型。研究結果表明,集成學習模型較單一模型對預測效果更優,其AUC比CNN、LSTM和Conv-LSTM單一模型預測分別提升0.02、0.04和0.01;最終決策樹選擇中,CART決策樹比隨機森林(RF)和梯度提升決策樹(GBDT)預測效果更優;預測結果在時間緯度上,“嚴重事故”事件占比較實際低3.95%,在空間緯度上,預測熱力區域在0.5~1區間范圍內與實際接近。

關鍵詞:交通安全;交通事故;事故嚴重程度預測;機器學習;集成學習模型

中圖分類號:U491.3? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)08-0028-08

Abstract: In order to explore the spatio-temporal characteristics of regional traffic accidents, accurately predict the severity of accidents, and provide decision support to the competent departments of transportation. Based on the British traffic accident statistical data, firstly, the spatio-temporal characteristic data of traffic accidents are transformed into gridded data, and the spatial features are convoluted in two dimensions, and the temporal features are combined into two-dimensional convolution into three-dimensional convolution to solve the grid conflict problem; secondly, the basic learner and meta-learner of Stacking model are established using the working principle of convolutional neural network (CNN) and long-term and short-term memory artificial neural network (LSTM) model. Finally, the output results are passed into the classification and regression tree (CART) to build a complete integrated learning model for accident severity prediction. The results show that the prediction effect of integrated learning model is better than that of single model, and its AUC is 0.02, 0.04 and 0.01 higher than that of CNN, LSTM and Conv-LSTM single model, respectively, and in the final decision tree selection, CART decision tree is better than random forest (RF) and gradient lifting decision tree (GBDT). In terms of time latitude, the proportion of "serious accident" events is 3.95% lower than that of reality. In terms of spatial latitude, the predicted thermal area is close to the reality in the range of 0.5~1.

Keywords: traffic safety; traffic accident; accident severity prediction; machine learning; integrated learning model

根據世界衛生組織2018年《全球道路安全現狀報告》顯示,每年約有135萬人死于道路交通事故[1]。由道路交通事故導致的死亡已經成為全球人員死亡的第八大原因,交通安全問題已然成為需重點關注的全球性公共健康問題。事實上,交通事故的發生雖受諸多因素影響,但仍有跡可循,基于道路交通事故歷史數據開展事故安全評估研究(包括影響因素、評價模型、事故預測等)對降低道路交通事故的發生率和嚴重程度,提升道路交通安全管理水平等具有重要意義。

國內外學者針對于交通事故的安全評估研究主要集中于事故嚴重程度的預測和影響因素的辨識,研究方法大致為三類。第一類是傳統預測方法,包括統計回歸法[2]、Logit模型[3]等,主要適用于樣本量較少、短期數據變化的情況,模型較為簡單,存在針對于隨機性較大、可靠性不強等問題;第二類是利用機器學習方法,包括隨機森林[4]、GBRT[5]、XGboost[6]等決策樹算法,適用于高維數據處理,但存在對特定數據集依賴較強的問題;第三類是基于深度學習的事故嚴重程度預測,包括卷積神經網絡(CNN)[7]、長短期記憶網絡(LSTM)[8]等深度學習算法,這些模型應用場景較為特定,如CNN常用于圖像方面,LSTM往往應用于存在時間序列特征的數據中。

對于事故空間空間分布,國內外學者主要采用2種方式,其中一部分學者多借助地理信息系統(GIS)等空間分析技術,尋找交通事故在空間上的集群特征,如通過熱點分析[8]、密度分析、聚類分析[9]等手段尋找城市交通事故熱點時空分布特性;另一部分學者從數理統計交通辨別事故發生特征,如早晚高峰、季節和具體路段等[10],或利用機器學習和深度學習算法預測事故發生黑點[11-13]。這些分析方法更注重微觀層面解決實際問題,往往對其他事故特征因素考慮較少,難以做到對區域整體的預測。

綜合上述分析,現有的交通事故嚴重程度預測方法較為全面,但在算法應用層面多以單一模型進行擬合,少采用模型組合的方式預測事故嚴重程度。理論上,組合模型相比于單一模型具有一定的優勢。單一模型具有唯一的模型結構和全局固定的模型參數,但對于某一數據子集并不一定是最優的模型結構和最優的模型參數。對于組合模型,在模型訓練時可以在不同的數據子集中選取更優的局部預測模型,相比于單一的并且具有全局固定模型參數的預測模型,具有更多的靈活性和適應性,很有可能在全局表現出更優的預測精度和預測穩定性。同時,現有的交通事故嚴重程度預測方法對于事故空間分布多偏向于微觀層面,缺少從整個區域層面的預測模型。因此,本文根據不同模型的應用特征,構建了一種基于集成學習模型的交通事故嚴重程度預測方法,充分考慮時間、空間和其他可能影響事故發生的特征數據,發揮組合模型對不同特征數據的應用效能,深度挖掘區域道路交通事故數據,提升事故嚴重程度的預測精度。

1? 交通事故嚴重程度預測模型

1.1? 問題定義

在正式選用方法建立模型之前,首先根據所要研究的問題,給出一些本文中所要使用的名稱和變量的定義。本文的目標在于基于時空特征對交通事故的嚴重程度進行預測,因此通過給出一些對所需要用到的諸如網格單元、時間單元等自定義變量的基本的定義,逐步給出本文所要研究的“基于集成學習模型的交通事故嚴重程度預測”問題的具體含義。

首先,給出網格單元和時間單元的定義。

定義1:(網格單元)設一個區域分布在一定經緯度范圍內,則經度范圍可以被劃分為m個等長的區間,緯度范圍可以被劃分為n個等長的區間。位于第i個(i=1,2,3,…,m)經度區間和第j個緯度區間(j=1,2,3,…,n)的所有經緯度所組成的集合稱為第ij個網格單元,記作uij。

定義2:(時間單元)設一類事件區域分布在一定時間范圍內,則時間范圍可以被劃分為m個等長的區間(時間段)。位于第i個(i=1,2,3,…,m)時間區間的所有時間點所組成的集合稱為第i個時間單元,記作tui。

其次,一個事件有許多影響因素,把這些影響因素稱之為特征。為了運用現有代數學方法研究這些影響因素,將其排列為矩陣。一般,為了能夠用量化方法研究這些特征,往往會把這些特征數值化,得到一個數值矩陣。下面給出這種本文中專用矩陣的定義。

定義3:(事件特征矩陣)設一類事件有m個需要研究的影響因素e1,e2,…,em,這些影響因素均有n條觀測記錄,則e1,e2,…,em均為n維列向量。我們稱m×n維矩陣E=[e1,e2,…,em]為事件的特征矩陣。

定義4:(學習器)設有一個映射f:(E0,T,E)→P,其中E0為待預測事件中用作訓練集部分的事件特征矩陣,T為待預測事件中訓練集部分已經觀測到的值,E為待預測事件中需要預測(作為測試集)的部分的事件特征矩陣。P為f的輸出,即通過學習器f產生的預測值。如果P中有一半以上的值與實際情況相符,則稱f為一個弱學習器。

下面,給出本文中所使用的“集成學習模型”的大致思路。

定義5:(集成學習模型)設一個模型g由多個學習器f1,f2,…,fn組成。g為一個映射(E0,T,E)→P。下列等式

(1)

成立,其中Ei為第i個模型中用作測試集而輸入的事件特征矩陣,Pi為第i個模型的輸出,Ti為第i個模型中認為已經觀測到的待預測事件的標簽,則稱g為由多個學習器f1,f2,…,fn組合而成的集成學習模型。

因為本文的研究方面突出了交通事故的時空特性,故專門定義了一類包含時空特征的時間,以區別于一般的事件,方便后續研究。下面給出定義,具體說明本文中把什么叫做“具有時空特征的事件”。

定義6:(具有時空特征的事件)設待研究事件的事件特征矩陣為E,且該事件具有時間特征和空間特征。設該事件被劃分了m×n個網格單元和p個時間單元,若對于?坌1≤i≤m,1≤j≤n,1≤k≤p,有uij∈E,tuk∈E,其中i、j、k均為正整數,則稱該事件具有時空特征。

最后,綜合上面的定義,可以給出本文所要研究的問題的一般定義了。

定義7:(基于集成學習模型的交通事故嚴重程度時空預測)對于一類交通事故事件,其需要預測的特征為其嚴重程度?!皣乐爻潭取边@一特征被作為一個標簽,有幾個代表了不同程度的已數量化的取值,且此標簽預測值P=g(E0,T1,E)。選擇合適的集成學習模型g的問題稱作基于集成學習模型的交通事故嚴重程度時空預測問題。

根據定義7中“基于集成學習模型的交通事故嚴重程度時空預測”的含義,便可以對本文研究的預測類問題作出模型的建立了。

依據之前對數據集的處理方法,可見數據集中需要預測的“Accident Severity”特征,即“交通事故嚴重程度”特征只有0和1兩個取值,即“不太嚴重”和“嚴重”。因此,與其作一個普通的預測,不如將此類問題轉化為一個針對性更強的二分類問題。

為了避免“特征工程”問題,在分類的過程中并不全部使用其中所有的特征。因為本文是基于時空特征對交通事故嚴重程度進行預測的,所以起初把數據集中的交通事故按照空間特征(經緯度)分為網格單元。年(取2020)、月、日、時和分等能夠合并的時間特征將按照操作系統標準轉化為時間戳,并按照時間戳劃分為許多個時間單元。

為了應用集成學習方法,以此來提高模型的分類精度,首先從單模型的建立開始。本文中運用的單模型包括CNN網絡、LSTM網絡和Conv-LSTM網絡,其基本原理和在本文中的具體配置都已經在前文中敘述完畢。由于集成學習也基本服從“木桶理論”,可以知道集成學習的精度會受限于精度較低的那個模型,況且只有2個精度相近的模型,才能組建出精度有所提高的模型。其集成后的在測試完單模型以后,將根據單模型的表現來決定挑選何種模型來組建集成學習模型。

1.2? 研究思路

對于交通事故嚴重程度的時空預測問題,傳統的機器學習算法存在參數尋優困難和對高維度數據易過擬合的問題。針對此問題,本文提出基于集成學習模型的交通事故嚴重程度的時空預測模型。模型首先對多源交通事故特征數據集進行正態化處理,隨后構建以CNN網絡為基學習器,以LSTM網絡為元學習器的Stacking模型的具體運行機制,最后選取CART決策樹輸出最終預測結果。具體模型結構如圖1所示。

1.3? CNN模型

為匹配數據集中數據集特征,本文全連接層設置輸入一維張量為5,二維張量為31,以及128個神經元;卷積層一維張量為112,二維張量為64,并不對邊界進行全零填充。并設定卷積層的激活函數為ReLU函數;為使神經網絡自動減少特征數量,同時加快訓練速度,本文匯聚層一維張量設置為2,二維張量為1,并在匯聚層中添加了2個卷積核,其尺寸均為1,匯聚層的結構簡圖如圖2所示[14]。

在匯聚后,采用20%的丟棄率進行正則化處理,并把二維數據轉化為一維數據,即壓平處理。輸出層包含第二個全連接層和第三個全連接層,激活函數采用Sigmoid函數,整體結構如圖3所示。

1.4? LSTM模型

LSTM模型具有時序性特征,而交通事故的發生往往在一段時間內能夠體現時序性特征,因此本文選取6個時間戳長度作為時間序列輸入,輸出層仍然包括2個全連接層,第一個全連接層采用ReLU函數進行激活,并利用20%的丟棄率對第一個全連接層的結果進行正則化。對于第二個全連接層激活函數,本文采用Sigmoid函數[15-17]。LSTM輸出層整體結構如圖4所示。

1.5? Stacking模型

Stacking模型包括基學習器(Base-Learning Model)和元學習器(Meta-Learning Model)兩個部分[18],通過基學習器的輸出結果整合后傳入元學習器,最后得到元學習器的結果,其基本架構如圖5所示。

1.6? 評價指標

由于事故嚴重程度預測屬于二分類問題,因此本文選適用于二分類問題模型的AUC(Area Under Curve)作為評價指標。AUC值表現模型的擬合能力,AUC值為受試者操作特征曲線(receiver operating characteris-tic,ROC)下圍成的面積,其值越接近于1,預測模型真實性越高[19-20],計算見式(2)。

式中:M和N分別為正樣本和負樣本的數量;rank?滋表示第μ條樣本的序號。

2? 交通事故影響因素的選擇

2.1? 數據來源

本文采用2020年英國統計的英國一年內所有道路交通事故信息,共計129 983條。剔除不完整數據、無法識別數據和明顯錯誤數據,共選取交通事故樣本數據129 081條。數據集將“交通事故的嚴重程度”劃分為嚴重事故和一般事故兩類。其中,嚴重事故為人員重傷和死亡事故,共發生104 871起,占比達81.2%;其他事故為一般事故,共發生24 210起,占比18.8%。

為進一步探究事故嚴重程度和空間分布特征,根據數據集中經緯度數據和交通事故嚴重程度數據,繪制交通事故嚴重程度熱力圖,如圖6所示。英國的交通事故嚴重地區主要集中在英國東南部地區,而愛爾蘭地區的交通事故往往不是很嚴重。英國北部地區交通事故嚴重地區不是很集中,但是交通事故嚴重程度比南部地區略大。

2.2? 特征變量

英國交通事故數據集即包含事故經緯度、事故傷亡人數、發生時間、道路類型、光照條件和天氣狀況等30個特征,具體特征變量見表1。

3? 模型評估結果與檢驗

3.1? 偏態數據集的正態化

為保證數據集呈現正態分布,提升模型運算效率,對特征變量進行博克斯-考克斯(Box-Cox)變換,以Latitude(緯度)特征為例,Box-Cox變換之前后的頻率分布直方圖、頻率密度分布曲線、正態密度擬合曲線和正態分布曲線的對比圖,如圖7、圖8所示。通過似然估計,Latitude特征所選用的?姿為-6.239 5。

3.2? 數據集預處理

由于“一般事故”類型樣本只占總體樣本的15.4%,本文采用上采樣(Oversampling)不均衡數據進行處理,即對小樣本數據進行多份復制,并分別利用CNN、LSTM和Conv-LSTM網絡測試其AUC表現,且每次測試時都隨機采樣數據集,并采用5-折交叉驗證,檢驗結果如圖9所示。通過AUC測試結果表明,當樣本復制5份后,3種模型網絡ACU性能均達到最佳。

(a)? 頻率分布直方圖、頻率密度分布曲線和正態密度擬合曲線

(b)? 正態分布曲線

(a) 頻率分布直方圖、頻率密度分布曲線和正態密度擬合曲線

(b)? 正態分布曲線

3.3? CNN、LSTM和Conv-LSTM網絡的調優

本文首先對構建的CNN、LSTM和Conv-LSTM網絡進行時間切分的步長的調整。本文設定時間切分步長的搜索空間為{3,4,5,6,7,8}測試其AUC表現,驗證結果如圖10所示。

通過AUC測試結果表明,CNN網絡在時間切分步長為7時AUC結果最佳,LSTM和Conv-LSTM網絡在時間切分步長為6時AUC結果最佳,因此本文選取時間切分步長為6作為模型預測參數。

采取同樣的方法,利用網格搜索的方法,設定學習率的搜索空間為{0.1,0.15,0.2,0.25}搜索,發現CNN網絡和Conv-LSTM網絡的學習率分別為0.15和0.2時,其AUC表現最佳,分別為0.70和0.73。LSTM網絡中學習率為0.2時,其AUC表現為0.70,與學習率設置為0.15時相差無幾,因此學習率設置為0.2。

3.4? Stacking模型調優

為保證集成模型的性能最優,在未傳入決策樹之前,按照調整好的超參數把基學習器和元學習器進行堆疊,并與單個基學習器進行對比,其AUC表現見表2,小提琴圖如圖11所示。

由于CNN和Conv-LSTM網絡的性質較為相似(都有卷積的性質),所以堆疊后效果一般,而CNN和LSTM網絡性質差異較大,所以堆疊后預測精度較高。因此,本文Stacking模型采用以CNN網絡為基學習器,LSTM網絡為元學習器的組合模型。

3.5? 集成學習模型調優

本文將Stacking模型輸出結果作為輸入傳給決策樹模型,分別測試隨機森林(RF)、梯度提升決策樹(GBDT)和分類與回歸樹(CART)3種決策樹模型。本文采用網格搜索法,獲取決策樹模型最優超參數,最終參數設置見表3。經30次測試取平均值后,采用Stacking模型和CART決策樹集成擬合效果最佳,其AUC為0.74,模型對比如圖12所示。

4? 交通事故嚴重程度預測對比

在時間維度上,從全年和各季度預測結果上看,預測的“嚴重事故”整體數量較實際偏低。從全年角度,“嚴重事故”較實際低3.95%;從各季度來看,二季度和四季度預測效果較好,分別較實際低1.58%和1.65%,一季度和三季度預測較實際分別低6.5%和6.23%。全年和各季度預測結果和實際結果對比情況如圖13所示。

在空間維度上,將事故嚴重程度密度區域進行歸一化處理,繪制實際交通事故嚴重程度熱力圖和預測熱力圖,如圖14所示??梢园l現,預測后范圍在0.8~0.9的熱力區域減少,而范圍在0.6~0.7的熱力區域增加,說明模型整體預測的事故嚴重程度偏低。

(a)? 原始交通事故嚴重程度熱力圖

(b)? 預測交通事故嚴重程度熱力圖

5? 結束語

1)充分考慮影響因素難以選擇和對高維度數據易過擬合的問題,結合交通事故時間、空間特征,提出以CNN網絡為基學習器,LSTM網絡為元學習器的集成學習模型架構,形成交通事故嚴重程度的時空預測模型。

2)在模型選擇過程中,本文嘗試將CNN、LSTM和Conv-LSTM模型采用多種方式進行組合,并與單個基學習模型進行對比,最終發現CNN和LSTM模型組合后預測效果最佳,說明根據數據特征分別選擇合適模型進行組合后,整體預測效果有所提升。

3)將建立好的Stacking模型預測結果輸入RF、GBDT和CART決策樹,通過驗證發現CART作為輸出決策樹預測效果最佳,由此構建了整個集成學習模型。

4)從時間緯度和空間緯度來看,本文構建的集成學習模型對“嚴重事故”的預測相對偏低,存在影響事故嚴重程度的特征變量不足等原因,下一步應加強對事故發生形態、事故發生的車輛類型、交叉口類型和信號控制方法等因素的挖掘。

參考文獻:

[1] ZHANG Y L.World health organization releases“Global Road Safety Status Report 2018”[J].Chinese Journal of Disaster Medicine,2019,7(2):100.

[2] ABDEL-ATY M,UDDIN N,PANDE A, et al. Predicting free-way crashes from loop detector data by matched case-control logistic regression[J].Transportation Res-earch Record, 2004,7(189):88-95.

[3] 靳文舟,姚尹杰.多因素耦合作用下的車輛群事故傷害程度估計[J].鄭州大學學報(工學版),2021,42(3):1-7.

[4] PARSA A B, MOVAHEDI A, TAGHIPOUR H, et al. Toward safer highways, application of XGBoost and SHAP for real-time accident detection and feature analysis[J]. Accident Analysis & Prevention, 2020(136):1-8.

[5] 楊文忠,張志豪,柴亞闖,等.基于GBRT模型的交通事故預測[J].新疆大學學報(自然科學版),2020,37(1):36-43.

[6] SUN Z, WANG J, CHEN Y, et al. Influence factors on injury severity of traffic accidents and differences in urban functional zones: the empirical analysis of Beijing[J]. International journal of environmental research and public health, 2018,15(12):2722-2738.

[7] 王慶榮,魏怡萌,朱昌鋒,等.基于時空圖卷積網絡的交通事故風險預測研究[J].計算機工程,2022,48(11):22-29.

[8] LE K G, LIU P, LIN L T. Determining the road traffic accident hotspots using GIS-based temporal-spatial statistical analytic techniques in Hanoi, Vietnam[J]. Geo-spatial Information Science, 2020,23(2):153-164.

[9] BENEDEK J, CIOBANU S M, MAN T C. Hotspots and social background of urban traffic crashes: A case study in Cluj-Napoca (Romania)[J]. Accident Analysis & Prevention, 2016(87):117-126.

[10] 劉堯,王穎志,王立君,等.交通事故的時空熱點分析[J].浙江大學學報(理學版),2020,47(1):52-59.

[11] 張光南,鐘俏婷,楊清玄.交通違法事故時空分布特征及其影響因素——以廣州市為例[J].交通運輸系統工程與信息,2019,19(3):208-214.

[12] 田準,張生瑞.優化經驗貝葉斯事故黑點識別與排序方法[J].長安大學學報(自然科學版),2019,39(5):115-126.

[13] 萬明,吳倩,嚴利鑫,等.道路交通安全研究的現狀與熱點分析[J].交通信息與安全,2022,40(2):11-21,37.

[14] ZHANG M,LI T,ZHU R,et al. Traffic accident's severity prediction: a deep-learning approach-based cnn network[J].IEEE access, 2019(7):39897-39910.

[15] 張志豪,楊文忠,袁婷婷,等.基于LSTM神經網絡模型的交通事故預測[J].計算機工程與應用,2019,55(14):249-253,259.

[16] PAN Z B,TANG J,TJAHJADI T ,et al. A novel rapid method for viewshed computation on DEM through max-pooling and min-expected Height[J].ISPRS International Journal of Geo-Information,2020,9(11).

[17] ZHOU Z,HUANG K,QIU Y,et al. Morphology extraction of fetal electrocardiogram by slow-fast LSTM network[J].Biomedical Signal Processing and Control,2021,68(5):102664.

[18] 李朝輝,殷銘,王曉倩,等.雙機制Stacking集成模型在短時交通流量預測中的應用[J].科學技術與工程,2021,21(11):4648-4655.

[19] 劉星良,單玨,劉唐志,等.基于交通流穩定性系數的高速公路交通事故實時風險預測[J].交通信息與安全,2022,40(4):71-81.

[20] 呂通通,張湛,陸林軍,等.基于互信息貝葉斯網絡的交通事故嚴重程度分析[J].交通信息與安全,2021,39(6):36-43.

近年來,隨著我國的石油勘探工作向復雜油氣藏[1]發展,對地下地質體速度求取精度的要求越來越高,儲層預測的需求也日益增加。塔里木油田自2021年以來,平均每年負責近20多個儲層預測數據的質控工作,每個儲層預測項目包括15個以上過程成果數據體需要質控,工作量巨大。傳統的人工質控方式存在質控過程繁瑣化、質控結果主觀化、質控效率低等問題。為此,本文提出了一種基于分布式處理的儲層預測質控系統。本系統在確保數據在傳輸過程中的安全性和完整性的同時,提高處理效率和保證結果質量。

傳統的儲層預測項目通常由單獨的承包商來閉環處理其對應的儲層預測全流程工作,包括巖石物理、正演模擬以及特殊處理及屬性分析等其他過程[2]。其中,特殊處理主要用于儲層預測數據增強,而其他過程則用于信息分析和解釋。工區閉環的處理模式能滿足一般的石油勘探工作,但其存在“木桶效應”,在探索成熟區域鄰近區及新區時,面臨著解釋周期不可控以及結果質量低等問題[3]。

儲層預測數據的安全傳輸方面,由于儲層預測數據[4]的保密性,確保項目雙方網絡通暢的同時,需要保障數據在傳輸過程中的安全性和完整性。虛擬專用網絡(Virtual Private Network,VPN)是一種通過在客戶機與網關之間建立加密的點對點連接的虛擬技術,可以確保數據在經過網絡傳輸時的安全性。然而,對于非頁面端的數據訪問,傳統的質控平臺通常依賴額外的應用軟件進行轉換,無法實現端到端的安全傳輸。

針對以上原因,本文基于儲層預測數據分布式處理新模式,結合GeoEast-iEco[5]數據解釋和處理平臺,構建了網頁端一體化智能質控平臺。該平臺實現了儲層預測數據處理的在線質控功能,能夠一鍵生成質檢表和質量控制報告,并支持質控項目的在線作業。同時,平臺建立了三級質檢在線管理等功能,實現了儲層預測質控流程的一體化和智能化。此外,通過建立項目專用的內部網絡部署,遠程用戶可以獲得安全接入地址,確保數據訪問的安全性和保密性。

1? 儲層預測數據質控新模式

隨著勘探工作的持續進行,所面臨的工作環境日益復雜,其難度也在不斷增加[6]。為了更有效地質控這些數據,本文提出了一種基于分布式處理平臺的儲層預測質控系統。這種系統通過將儲層預測全流程劃分為5個工序、15個質控任務,實現了儲層預測質控流程的一體化和智能化。

1.1? 儲層預測數據分布式處理

在本系統中,儲層預測包括5個主要步驟:巖石物理、正演模擬、特殊處理及屬性分析、疊后反演和疊前反演。在巖石物理階段,采用先進的數據清洗和校正技術,以確保數據的質量和準確性。在正演模擬、特殊處理及屬性分析階段,利用大數據技術和分布式計算框架,處理儲層預測數據。在其他解釋階段,對數據進行深入學習和復雜的數據分析,以更準確地獲取層速度等信息。最后,在質控階段,使用基于分布式處理平臺的儲層預測質控系統,監控和控制數據處理的質量和效率。

1.2? 儲層預測質控系統處理技術與精度要求

儲層預測質控系統基于分布式處理平臺,實現了儲層預測的全流程質控。系統在每個處理階段設置質控點,并通過質控任務對數據解釋進行監控和優化。通過這種方式,保證數據解釋質量的同時,提高項目周轉的效率。

根據多年的儲層預測項目經驗[7],針對塔里木盆地的實際勘探場景,本文在儲層預測數據分布式處理的基礎上,制定了總體處理技術要求和過程質控要求,并從定性和定量2方面對工作精度要求制定了具體的質控標準。針對塔里木盆地的實際場景需求,結合以往的儲層預測經驗[8],制定了適用于該地區的儲層預測質控流程,并梳理了重點試驗參數。此外,還統一規定了相應的測試范圍和區域的基準參數[9]。表1展示了儲層預測技術的部分要求,從而保障儲層預測的高質量,對各個質控模塊的實現進行具體化和模塊化。

1.3? 過程質控要求

對于儲層預測數據,以往質控方式人為主觀判斷的因素較多,對質控結果存在一定程度干擾。通過三級質檢的方式,可以極大降低人為因素所帶來的影響,以改善抽檢的質量[10]。為了確保儲層預測的高質量,針對每個項目采用三級質檢的方式完成項目檢驗,明確規定各個任務的關鍵步驟的檢驗點,制定合格標準以及不同級別的抽檢率標準,具體質檢流程如下。

一級質檢:由項目承包商自行進行自檢,確保自檢率達到100%。

二級質檢:由項目監督方進行抽檢,抽檢率不低于工序中定義的抽檢率要求。

三級質檢:由專業化小組進行抽檢,抽檢率不低于工序中定義的抽檢率要求。

同時,對每個質控點賦予不同的權重,以便根據各個質控點的考核情況進行綜合量化評價。按照從上到下逐級抽檢的方式,最終的合格率將根據三級質檢的合格率相乘得出。

2? 智能質控平臺建設

基于儲層預測數據分布式處理的組織模式,在降低勘探工作難度的同時,縮短了整體工作周期。然而,在質控方面,傳統的質控工作由于沒有統一的處理軟件,數據需要在不同平臺軟件之間進行傳輸[11],造成資源浪費的同時,也大大影響了工作人員的質控效率以及項目的進度。同時,現有的質檢方式大都采用線下的方式進行,這導致了質控流程冗長、數據遷移困難等問題。為了解決以上問題,本文基于儲層預測數據分布式處理的組織模式搭建一體化智能質控平臺,以實現儲層預測數據處理項目的在線遠程質控,保障整個質控流程的質量和效率。

2.1? 總體設計

一體化智能質控平臺的搭建從數據載入、功能構建、用戶定制以及應用效果四個方面進行考慮。在數據載入方面,對于GeoEast-iEco平臺所處理的數據進行在線載入,而其他處理軟件則需要離線載入;在功能構建方面,實現質檢進度管理、質控報告及質檢記錄等功能;在用戶定制方面,實現項目承包商、監督方以及監督用戶聯合保障質檢;在應用效果方面,實現在線遠程質控、質控結果展示和定量評價。

2.2? 技術框架

為了提高儲層預測數據質控的效率,本文基于GeoEast-iEco平臺搭建了一個并行計算結構,該結構包括存儲層、資源管理與作業調度層、并行框架層、質檢算法層以及交互層。

在存儲層方面,采用了多維度動態道頭索引機制、緩存機制以及分布式讀寫機制,以實現高速數據讀取的能力。資源管理與作業調度層利用集群資源管理技術,確保算法能夠快速執行。并行框架層負責批量計算各類質檢模塊。質檢算法層則負責進行質檢的定量計算。最后,交互層采用GeoToolkit組件[12]為用戶提供各類地震成像展示、質檢報告生成等交互功能。

通過這樣的并行計算結構,能夠提高儲層預測數據處理的效率,使得儲層預測數據的質檢工作更加高效準確。

為確保儲層預測數據的安全性和完整性,采取了一系列安全措施。首先,部署了一個專用的內部網絡,使甲方員工能夠安全地訪問乙方公司的內部質控平臺服務器和Geoeast服務器,同時滿足甲方質檢員異地訪問的需求。

在實現這一目標時,乙方公司在公網IP上部署一個VPN路由器[13],以便快速、便捷地實現異地用戶對乙方公司內網的訪問。不論用戶是在手機終端還是其他區域局域網用戶,都可以通過PPTP/L2TP協議進行訪問,并且訪問數據會進行加密,直接進入公司內網的質控平臺服務器,從而實現協同工作。

通過這樣的安全措施,能夠確保儲層預測數據在項目雙方網絡中的暢通無阻,同時保證數據的安全性和完整性。用戶可以安心地進行遠程訪問,并參與質控工作。

2.3? 質控作業批處理

對于質控作業的批處理,基于MapReduce框架[14]Map階段負責對數據進行分塊處理,而Reduce階段負責數據的歸并處理。通過這種方式,可以有效地完成質控作業的批處理。

用戶可以通過前端界面監管作業參數和狀態,查看儲層預測數據和質控項目的展示等功能。通過這個前端網頁,用戶可以方便地管理和監控質控作業的進度,并且查看相關數據和項目的展示。

3? 實現效果

3.1? 全量質控

根據質控指標以及定量檢測質控要求,從點、線、面及切片4個維度對儲層預測數據進行效果的對比分析。圖1的左側展示了執行波場分離后的Z分量在去噪前后時的對比,圖的右側展示了Z分量[15]在去噪前后的單炮信噪比,從圖中可以看出,Z分量的噪聲在去噪后從53.88%降低為44.07%,而信號占比從45.61%提高到55.32%?;谂幚硭惴K和內置信噪比計算模塊,實現儲層預測數據的快速信噪比分析計算;同時在Web前端頁面,實現分布式遠程信噪比分析計算功能,滿足了儲層預測數據處理解釋過程質量控制對信噪比分析計算的需求。

在測井時獲得的曲線,可反映出不同巖性、層位特征,相同區域測井曲線反映了本區域的地質特征,具有一定的規律性,通過定性展示特定區域的聯井曲線可以對測井曲線質量進行定性質控。圖2展示了巖石物理質控中的測井曲線[16]圖,其中,數據源為縱波層速度、橫波層速度、密度曲線等,可以定性分析測井曲線特征與巖性的吻合程度,為后續處理解釋工作提供了質量參考。

3.2? 三級質檢在線管理

經由本平臺創建的質控項目支持三級質檢的線上管理,質控項目信息包括油田質檢人員、項目承包人員以及專業監督人員,由甲方提供質檢需求,乙方進行質控意見的在線反饋,數據經由內部專用網絡進行存儲和轉發,并通過質控平臺查看相關質控數據報告以進行在線審核。

3.3? 質控報告在線生成

傳統的質控記錄工作通常是線下進行的,工作人員需要依賴專業軟件來記錄質檢數據,例如質檢數量、合格率等,并且需要進行線下的人工簽字。為了解決這個問題,智能質控平臺構建了一個網頁端的系統,可以在線生成質檢記錄和質控報告。

針對質檢過程的在線記錄,系統能夠自動獲取質檢用戶的信息以及所有的操作,并生成質檢記錄表。在這個過程中,系統會完成定量質控,而質檢人員則負責定性判斷。質檢表中的關鍵字段由平臺根據相應的數據自動生成,這不僅提高了質控處理的效率,也避免了人為主觀因素的影響。

另外,針對質控報告的在線生成,平臺會將質控點的處理數據進行存儲,并按照指定的模板生成相應的質控報告文檔。報告中會說明檢驗標準以及質控結果是否合格,從而簡化了工作人員的報告流程。

4? 結束語

通過對儲層預測數據分布式處理組織模式的探索,成功地制定了質控處理技術體系,并在此基礎上搭建了一體化智能質控平臺。平臺實現了在線質控、遠程質控、三級質檢在線管理、質控報告和質檢記錄的在線生成等功能,大大提高了質量和效率。研究結果表明,智能質控平臺對于改善質控流程、提升效率和質量具有重大價值。后續將進一步探索這個領域,包括利用深度學習技術如ResNet和GAN等深度神經網絡,來提高質控處理結果的精度。

參考文獻:

[1] 滕吉文,司薌,王玉辰.我國化石能源勘探,開發潛能與未來[J].石油物探,2021,60(1):1-12.

[2] 李虹,蔡希玲,王學軍,等.海量地震數據處理方案與技術發展趨勢[J].中國石油勘探,2014,19(4):48-55.

[3] 李鐵柱,韓文娜,王鐵成.VSP數據管理質量控制方法探討[J].中國信息界,2012(10):41-43.

[4] HORNBY B E, YU J, SHARP J A, et al. VSP: Beyond time-to-depth[J]. The Leading Edge, 2006,25(4):446-452.

[5] 王子蘭,王仕儉,李素閃,等.GeoEast處理解釋一體化應用[J].天然氣工業,2007(S1):222-224.

[6] WANG X-W, QIN G-S, ZHAO W-F, et al. The application of forward modeling technique in seismic acquisition de-sign[J]. Progress in Geophysics, 2012,27(2):642-650.

[7] WANG H, LI M, SHANG X. Current developments on micro-seismic data processing[J]. Journal of Natural Gas Science and Engineering, 2016(32):521-537.

[8] 王喜雙,趙邦六,董世泰,等.油氣工業地震勘探大數據面臨的挑戰及對策[J].中國石油勘探,2014,19(4):43.

[9] LONGDE S, CHAOLIANG F, LIMING S, et al. Innovation and prospect of geophysical technology in the exploration of deep oil and gas[J]. Petroleum Exploration and Development, 2015,42(4):454-465.

[10] 郭樹祥,王立歆,韓文功.疊前地震數據優化處理技術分析[J].石油物探,2006,45(5):497-502.

[11] 冷廣升.地震數據采集質量控制方法研究與應用[J].中國煤炭地質,2010,22(S1):67-72,76.

[12] BALOVNEV O, BODE T, BREUNIG M, et al. The story of the GeoToolKit-an object-oriented geodatabase kernel system[J]. GeoInformatica, 2004,8(1):5-47.

[13] SINGH K K V, GUPTA H. A New Approach for the Se-curity of VPN[C]//Proceedings of the Second International conference on Information and Communication Technology for Competitive Strategies, 2016:1-5.

[14] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107-113.

[15] LU J, WANG Y, CHEN J, et al. P-and S-mode separation of three-componentdata[J]. Exploration Geophysics, 2019,50(4):430-448.

[16] MATEEVA A, ZWARTJES P. Depth calibration of DAS channels: A new data-driven method[C]//79th EAGE Conference and Exhibition 2017,2017:1-5.

猜你喜歡
交通安全機器學習交通事故
不同尋常的交通事故
預防交通事故
鄉鎮道路交通安全
農村道路交通安全問題
基于交通安全的高速公路路線平縱組合設計
公路設計應考慮的交通安全因素研究
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
一起高速交通事故院前急救工作實踐與探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合