?

基于LightGBM算法的海洋土壓縮參數預測模型

2024-01-18 09:47汪明元王振紅陳松庭
浙江工業大學學報 2024年1期
關鍵詞:壓縮系數貝葉斯準確性

汪明元,王振紅,陳松庭

(1.浙江華東建設工程有限公司,浙江 杭州 310014;2.中國電建集團華東勘測設計研究院有限公司,浙江 杭州 311122;3.浙江工業大學 土木工程學院,浙江 杭州 310023)

隨著施工技術的發展,各類海洋工程建設不斷推進。對海洋土體物理力學性質的研究已經成為海洋工程實踐中的重要問題。目前,土體的力學性質和設計參數的數值幾乎完全依賴于原位土工試驗(如取樣、鉆孔與灌入測試)以及后續的室內土工試驗(由固結試驗、三軸試驗直接得到的各試驗土樣的壓縮性和抗剪強度指標)。然而海洋巖土工程試驗成本高昂,針對特定工程展開數量多、密度大的現場試驗難度較大,難以獲得各位置的土體參數,限制了海洋工程的開展。因此,構建高效、可靠的土體參數預測模型對海洋巖土工程的發展具有重要意義[1]。機器學習算法[2]的興起與發展促進了計算機技術與傳統工程的交叉發展,許多機器學習方法在巖土工程領域已嶄露頭角[3-4],包括隨機森林[5-6]、神經網絡[7-9]等,彌補了傳統算法表達能力不足、準確率低的缺陷。2017年,Ke等[10]提出的LightGBM作為一種運行速度快、內存占用低的算法,目前已經被廣泛應用于電力電氣[11]、醫療衛生[12]和軌道交通[13-14]等領域,并已被逐漸應用于巖土工程領域。張凱等[15]建立了基于LightGBM算法的邊坡穩定性預測模型,將一些重要的土體參數作為模型的輸入,將邊坡穩定性作為模型的輸出;巫崇智[16]利用LightGBM算法構建了黏性土的不排水抗剪強度預測模型,并分析了貝葉斯調參對預測結果的影響,一定程度上推動了LightGBM算法在巖土工程領域的發展。然而現有研究主要針對穩定性和強度參數,針對變形參數的研究仍比較缺乏。

筆者提出的基于LightGBM算法的海洋土變形參數預測模型可以通過較易獲得的土體力學參數來預測較難獲得的土體壓縮參數。通過貝葉斯調參及k折(k-fold)交叉分析方法對模型進行調整,使模型獲得更好的預測性能。該模型有利于降低海洋土體勘察成本,提高土體參數勘察效率。

1 算法原理及實施流程

1.1 LightGBM算法原理

LightGBM作為一種高效實現的基于梯度提升決策樹(Gradient boosting decision tree,GBDT)的算法,其工作原理與GBDT類似。該方法通過利用損失函數的負梯度來近似當前決策樹的殘差值,并將其用于擬合新的決策樹。在每次迭代中,模型保持不變,將新的函數添加到模型中以不斷減少預測值與實測值的差異[17]。

訓練的目標函數為

(1)

用gi記作第i個樣本損失函數的一階導數,hi記作第i個樣本損失函數的二階導數,目標函數二次泰勒展開的結果為

(2)

相較于大多數GBDT算法采用的按層生長的生長策略,LightGBM算法采用了按葉生長的生長策略,即從所有葉中找出信息增益最大的節點進行學習,同時采用max_depth超參數來限制樹的深度,防止出現過擬合。LightGBM算法還采用了單邊梯度和隨機抽樣的方法,保留梯度較大的實例,同時對梯度較小的實例進行隨機抽樣,這種做法可以使用更少的數據量獲得準確的估計。同時采用互斥特征合并技術,將一定沖突比率內互斥的特征進行合并,從減少特征的角度達到降維的效果,且不會造成信息丟失[17]。

1.2 模型實施流程

采用python語言建立基于LightGBM算法的海洋土壓縮參數預測模型,具體實施流程如下:1) 收集土體參數數據,包括樣底深度、含水率、濕密度、土粒相對密度、液塑限、壓縮系數和壓縮模量等;2) 對數據進行預處理,主要是對缺失參數進行補充;3) 將數據劃分為訓練集和測試集,在訓練集上進行k折交叉驗證;4) 將處理好的數據輸入LightGBM預測模型中,為模型設置需要調試的超參,訓練模型并預測目標參數;5) 通過貝葉斯優化尋找令評價指標達到最優的超參,通過模型準確率評價指標來評價預測結果是否滿足要求;6) 得出最終土體參數預測模型。

2 模型構建與應用

以某海上風電場項目獲取的共482組土工試驗數據作為研究對象,根據土體物理力學參數,建立LightGBM預測模型,預測土體的變形相關參數,即壓縮系數和壓縮模量,并與實測值進行對比驗證,通過貝葉斯調參獲得最優超參數,結合多個評價指標定量評估所構建模型的實際預測效果。

2.1 數據準備

收集了共482組土體參數特征,包括樣底深度D、土分類名稱、含水率W0、濕密度ρ、干密度ρd、土粒相對密度Gs、孔隙比e、飽和度Sr、液限WL、塑限WP、液性指數IP、塑性指數IL、壓縮系數av和壓縮模量Es等。其中壓縮系數av、壓縮模量Es根據壓縮(固結)試驗得到的100,200 kPa的固結壓力計算所得?,F有液限有2種取值方式:以《土工試驗方法標準》(GB/T 50123—2019)規定的圓錐入土深度為17 mm處相應含水率為液限;以《建筑地基基礎設計規范》規定的圓錐入土深度為10 m處相應含水率為液限。由于試驗值用作基礎設計,在本研究中液限指圓錐入土深度為10 m處相應含水率。由于土分類名稱是由液塑性指數得出的,而液塑性指數可以通過液限、塑限與含水率計算所得??紫堵?、干密度和飽和度均能通過其他土體參數(含水率、濕密度、土粒相對密度)計算所得。因此在這個預測模型中選取的特征為樣底深度D、含水率W0、濕密度ρ、土粒相對密度Gs、液限WL、塑限WP、壓縮系數av和壓縮模量Es。具體參數特征如表1所示,參數分布如圖1所示。由圖1可以看出:壓縮系數av與壓縮模量Es在數值較小時頻率較高,數值較大時頻率較低。

圖1 各土體參數頻率直方圖Fig.1 Frequency histogram of soil parameters

表1 土體參數基本統計特征

采用Spearman相關性分析方法對土體參數數據進行分析。選用兩組土體參數為變量,相關系數為-1~1,其計算式為

(3)

式中:di為第i組兩種參數等級之差;n為樣本組數。

各個土體參數之間的相關系數熱力圖如圖2所示。從圖2可以直觀感受到各個土體參數之間的關系。Smith[18]提出了關于rs的以下標準:|rs|≥0.8代表兩組參數之間相關性很強;0.8>|rs|≥0.5代表兩組參數之間相關性一般;0.5>|rs|代表兩組參數之間相關性較弱。

圖2 各個土體參數的相關系數熱力圖Fig.2 Spearman correlation coefficient heat map of each soil parameter

由圖2可知:Es與Gs,av與W0,av與WL,av與WP,av與ρ的相關系數絕對值≥0.8,說明Gs對于目標變量Es有較強的相關性,壓縮系數av與多數變量有較強相關性,其中壓縮系數av與含水率W0的相關系數為0.94,其原因可能是對于飽和土來說,在100~200 kPa的固結壓力下,其壓縮主要是由于孔隙水的排出,故壓縮參數主要與含水率有關。Es與D,Es與W0,Es與ρ,Es與WL,Es與WP,Es與av,av與D,av與Gs的相關系數的絕對值為0.5~0.8,上述9組參數之間有一般強度的相關性。相關性分析為數據處理提供了部分參考依據。

各個土體參數的成分對比如圖3所示,當橫坐標與縱坐標為相同的特征時,顯示該變量自身的分布圖;當橫縱坐標為不同的特征時,顯示兩個特征的散點圖。從圖3中可以直觀地看到:av與D,ρ,Es有很明顯的負相關性,與W0有明顯的正相關性,與Gs、WL,WP有不太明顯的正相關性;Es與各土體參數相關性和av與各土體參數相關性相反。

2.2 數據預處理

根據2.1節所提到的參數形成統一的數據集。采用info函數對數據集進行檢查,一共有4 520個數據。其中ρ,Gs,av,Es均缺少兩組數據,經過觀察數據集發現缺少數據來源于同兩組土體,故直接刪除這兩組土體數據。而液限WL、塑限WP的缺失率均為22.3%,直接刪除對數據浪費較大。LightGBM算法能夠在有缺失值的情況下進行預測,通過對比不進行處理和采用以平均值39.96,24.08對數據進行填充的預測效果,發現兩種方式準確性差別不大,故決定不對液限WL、塑限WP進行處理。具體缺失值處理方式如表2所示。

表2 土體參數缺失值以及預處理方式

2.3 LightGBM算法及超參數確定

計算機處理器型號為IntelE5-2670、內存為16 G、操作系統為Windows 10。將預處理后的數據集按照4∶1的比例隨機劃分為訓練集與測試集,其中訓練集用于構建模型,測試集用來對模型的實際預測能力進行驗證。訓練集由384組樣本構成,測試集由96組樣本構成。

超參數取值對LightGBM的預測效果起到重要作用[19],筆者對max_depth,num_leaves,learning_rate,bagging_fraction,feature_fraction 5個超參數進行研究。其中:max_depth表示樹模型的最大深度,通過調整此參數控制樹自身深度,防止過擬合;num_leaves表示一顆樹上節點的個數,與max_depth一起決定樹的形狀;learning_rate表示學習率,代表學習過程中的步長,學習率較小時模型性能雖然較穩定,但運算量較大,處理時間長;bagging_fraction表示采用數在整個模型中的比例,當取值較低時可以防止過擬合;feature_fraction用于控制其他參數中的分裂點,防止過擬合。模型參數的選擇如表3所示,其余參數按照默認值取值。

表3 模型參數設置

2.4 k折交叉驗證

由于筆者所選用的數據量相對較少,如果僅僅將數據集分為訓練集和測試集,劃分的偶然性會影響訓練結果。k折交叉驗證就是將原數據集中的訓練集進一步劃分成大小一致的k個集合。選擇其中一個集合作為驗證集,其余k-1個集合作為訓練集進行訓練,將這個訓練步驟重復k次。選取令k次建模中的誤差平均值達到最小時的超參數作為最終超參數,在原始的全體訓練集上進行訓練。在k折交叉驗證方法中,k一般取5~10。由于本研究的數據量較少,計算壓力小,為了得到較好的計算結果,決定采用10折交叉驗證對所建模型進行驗證。由于LightGBM可以直接調用cv函數對數據進行交叉分析,故將最大迭代次數設為500,早停輪數設為20,以保證整個數據集能夠進行充分訓練。

2.5 模型準確率評價指標

平均絕對誤差MAE是預測值和實測值差的絕對值的平均值,范圍為0~+∞,預測值越接近于真實值,模型越精確,MAE值越低,其計算式為

(4)

均方根誤差RMSE是預測值和實測值之間平方差的平均值,范圍為0~+∞,預測值越接近于真實值,模型越精確,RMSE值越低,其計算式為

(5)

平均絕對百分比誤差MAPE是可以反映預測值與實測值誤差占實測值的百分比的平均值,范圍為0~+∞,預測值越接近于真實值,模型越精確,MAPE值越低,其計算式為

(6)

決定系數R2的計算式為

(7)

2.6 貝葉斯優化

在選用超參數的值時,雖然可以選擇不斷調參來獲得使評價指標最理想的超參數值,但評估每一個點的成本很高。而選用貝葉斯優化不需要評估每個點,只需要為每個超參值提供一個區域,這種調參方式會搜索使目標函數達到最優值時各個超參數的值。相較于窮舉搜索與隨機搜索等其他優化方式,貝葉斯優化重復次數少,可以同時為多個參數調參,運行速度快,內存占用小。

為2.3節中選用的5個參數設置調參范圍,選擇RMSE作為評價指標,通過貝葉斯優化調參不斷迭代得到更低的RMSE準確率評價值,用貝葉斯調參獲得的超參數來建立準確性最高的模型。由于數據量不多,選用調參參數量和范圍不大,為保證優化全面性,盡量做到充分調參,將最大評估次數設置為200,總消耗時長分別為850,1 277 s,最終調參結果如表4,5所示。

表4 對于壓縮系數av的LightGBM貝葉斯超參數調參結果

表5 對于壓縮模量ES的LightGBM貝葉斯超參數調參結果

為了進一步對本研究中所給的基于LightGBM的土體參數預測模型的預測能力進行評估,將所建模型與未進行k折交叉驗證和貝葉斯調參的模型進行對比。在前文的參數選擇中剔除了干密度ρd、孔隙比e、飽和度Sr、液性指數IP和塑性指數IL這5個可以通過已選取的特征計算出來的人工特征。為了探究建模中人工特征對數據準確性的影響,同時將樣底深度D、含水率W0、濕密度ρ、干密度ρd、土粒相對密度Gs、孔隙比e、飽和度Sr、液限WL、塑限WP、液性指數IP、塑性指數IL和壓縮系數av、壓縮模量Es作為特征進行建模,不同模型的準確性評價指標如表6所示。

表6 不同模型的準確性評價指標

由表6可知:在采用不同模型對相同數據集進行處理時,筆者所建模型相較未進行k折交叉驗證和貝葉斯調參的模型有一定提升。相較加入人工特征后的模型,筆者模型的預測準確性差異不明顯,說明在建模中加入人工特征對最終預測結果的準確性并沒有提升。

在10折交叉驗證下所構建的基于LightGBM算法的模型在MAE,R2,RMSE,MAPE 4種評價指標下的表現如圖4所示。針對av與Es的準確性評價指標,R2與RMSE的準確性排序是一樣的,兩者存在負相關,而這兩種指標與MAE和MAPE指標的準確度排序不一樣,說明相同數據的不同評價指標準確度的排序并不相同。不同折數對av各個準確性指標的影響無明顯規律性;隨著折數的變多,對Es預測的準確性振蕩變優。

圖4 模型在不同交叉驗證折數中4種評價指標的表現Fig.4 The model performance on four evaluation indicators in different cross-validation folds

模型預測值與實測值的對比如圖5所示。由圖5可知:在土體參數數值較小時,預測值與實測值差別較小;在數值較大時預測值和實測值差距逐漸變大??赡苁怯捎谳^小的數據數量較多,模型能進行充分學習,從而提高模擬準確性,總體來說本模型對兩種土體壓縮參數預測準確性較高。通過比較圖2中的壓縮系數av、壓縮模量Es和其他各個土體參數間的相關系數,可以發現av與D,W0,ρ,WL,WP的相關系數絕對值均大于Es與這些參數的相關系數,僅與Gs的相關系數稍小。從圖5可以看出:av的預測準確性高于Es,說明土的力學參數與物理參數相關性越高,預測的準確性越高。

圖5 模型預測值與實測值對比圖Fig.5 Comparison of model predicted value and measured value

3 結 論

筆者提出了一種基于LightGBM算法的土體參數預測模型,該模型能夠通過一些便于獲得的土體物理性質參數預測難以獲得的變形參數,即壓縮系數av、壓縮模量Es。采用k折交叉驗證法和貝葉斯調參對模型超參數進行優化。通過準確性評價指標判斷了該模型預測的準確性,并分析了k折次數、人工特征、數據集數量、預測量與輸入特征相關性等因素對模型準確性的影響。結果表明:貝葉斯調參一定程度上能夠提高預測準確性;k折次數的增加使Es預測的準確性振蕩變優;建模時加入人工特征對最終預測結果影響不明顯;數據集越大、預測指標與特征值相關性越高,模型預測準確性越高。該模型對壓縮模量Es的R2評價指標為0.803,對壓縮系數av的R2評價指標為0.906,預測準確性較高,研究結果可以為確定海洋土土體變形參數提供參考。

猜你喜歡
壓縮系數貝葉斯準確性
淺談如何提高建筑安裝工程預算的準確性
基于Skempton有效應力原理的巖石壓縮系數研究
貝葉斯公式及其應用
基于貝葉斯估計的軌道占用識別方法
美劇翻譯中的“神翻譯”:準確性和趣味性的平衡
論股票價格準確性的社會效益
一種基于貝葉斯壓縮感知的說話人識別方法
巖石的外觀體積和流固兩相壓縮系數
馬赫波反射中過度壓縮系數的計算
超聲引導在腎組織活檢中的準確性和安全性分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合