?

應用機器學習算法模型預測興安落葉松地上生物量1)

2024-01-12 10:16沐釗穎張茲鵬張浩姜立春
東北林業大學學報 2024年3期
關鍵詞:決策樹方差生物量

沐釗穎 張茲鵬 張浩 姜立春

(東北林業大學,哈爾濱,150040)

森林生物量是森林生態系統生產與代謝過程中長期積累的結果,也是森林生態系統運作的能量基礎和物質來源[1-3]。森林地上生物量作為森林生態系統碳循環的載體,不僅能夠反映區域群落利用自然資源的潛在能力,也是衡量群落生產力的重要指標[4-6]。

目前,對于生物量測定的方法主要有直接法和間接法。直接法主要為實測法,該方法費時、費力,對生態環境破壞性較大;間接法主要為模型估測法,該方法省時省力,效率高[7-9]。模型法分為傳統參數模型和非參數模型,傳統參數模型主要為線性和非線性回歸模型,非參數模型主要為機器學習算法模型。目前已經建立近2 000多個生物量模型,其中大部分為參數模型,非參數模型較少[10-11]。傳統參數模型有一定的局限性,在應用時通常要滿足模型的基本假設(獨立性、等方差、正態分布等),而生物量數據通常難以滿足這些假設,尤其是方差異質性,雖然在生物量模型構建過程中,通過異方差校正使模型滿足假設前提,但模型在應用時通常還需要采用方差校正因子降低預測誤差,使生物量模型的應用受到限制。

隨著人工智能技術的不斷發展,機器學習算法為森林生物量預測提供了新的手段。機器學習算法對輸入數據的分布形式沒有假設前提,適用性廣泛,在生物量預測領域受到越來越廣泛的關注[12-17]。王軼夫等[18]基于BP神經網絡構建了馬尾松生物量模型,發現其在精度上優于傳統生物量模型;林卓等[19]基于BP神經網絡和支持向量機構建了杉木人工林生物量模型,支持向量機的預測精度優于BP神經網絡;?z?elik et al.[20]利用非線性回歸模型和人工神經網絡分別構建模型預測松樹生物量,人工神經網絡具有更高的預測精度;Wongchai et al.[21]采用多種機器學習算法與傳統異速方程對泰國3種喬木生物量進行預測,預測結果顯示,隨機森林模型的預測精度最高。

興安落葉松(Larixgmelinii)為東北林區主要三大針葉用材林樹種之一[22],是該地區荒山造林和森林更新的主要樹種,該樹種對抵抗西伯利亞寒流和荒漠風沙的侵襲起到了重要作用。本文以小興安嶺地區的興安落葉松為例,采用人工神經網絡(ANN)、支持向量機(SVR)、梯度提升回歸樹(GBRT)和隨機森林(RF),分別對興安落葉松地上生物量進行預測,并對生物量模型的預測精度進行對比分析,為提高興安落葉松地上生物量的預測精度提供技術支持。

1 研究方法

1.1 數據來源

本文的興安落葉松數據采集地點位于小興安嶺(127°42′~130°14′E,46°28′~50°21′N)的翠蘭、烏馬河、帶嶺、鐵力和五營林業局施業區共收集了201株樣木。在林地伐倒樣木,按1 m區分段進行樹干解析,分段取樣,分別測定各區分段的樹干鮮質量;將樹冠分為3層,每個冠層選取3~5個標準枝,并分層稱取活枝鮮質量和葉鮮質量,每株樣木各區分層的枝葉都分別取樣,將采集的所有樣品帶回實驗室在105 ℃恒溫干燥后,稱量樣品的干質量。根據樣品干質量和鮮質量分別計算樣木各部分的干質量,最終匯總單木地上生物量。將取得樣木數據,按照75%和25%的比例分成訓練樣本和測試樣本(見表1)。

表1 興安落葉松樣本統計量

1.2 數據歸一化處理與反歸一化處理

在機器學習算法建模時,為消除不同量級變量對于建模的影響,需要對數據進行歸一化處理,使各變量的值均統一介于[0,1]。經過模型預測得到泛化結果,通過數據反歸一化處理,還原為原始數據級與真實值對比和評價。歸一化公式如下:

式中:Xi為歸一化后的值,X為樣本真實值,Xmax為樣本最大值,Xmin為樣本最小值。

1.3 興安落葉松地上生物量預測模型

1.3.1 傳統生物量模型

林木胸徑和樹高與地上生物量有顯著的相關性,生物量一般會隨著林木胸徑和樹高的增大而增加[23-25]。本文引入了胸徑和樹高兩個自變量,并采用了生物量建模中常用的二元生物量模型進行模型構建,模型形式如下:W=aDbHC。式中:W為地上生物量;D為胸徑;H為樹高;a、b、c為參數。

1.3.2 人工神經網絡模型

人工神經網絡是由大量具有自適應的神經元互相連接形成的神經結構,主要由輸入層、隱藏層和輸出層組成[12]。人工神經網絡的主要工作原理為輸入信號先向前傳遞到隱藏節點,由總誤差引起的權值修正向第一隱含層(即最接近輸入層的隱含層)進行反向傳播。前向傳遞時,如果輸出層得不到期望輸出,則轉入反向傳播,根據預測誤差調整網絡權值系數和閾值,從而使預測輸出值不斷逼近期望輸出值。

1.3.3 支持向量機回歸模型

支持向量機的本質是以最優方式劃分數據超平面。以決策超平面將數據分成兩類,屬于線性分類器。支持向量回歸對于線性不可分的數據引入核函數,將原樣本從原始空間映射到一個更加高維的特征空間,使得樣本在這個空間實現線性可分。使用R軟件中的e1071包進行支持向量回歸模型的擬合和預測。在模型擬合過程中,通過核函數的選擇和懲罰系數(C)的調節,不斷提高模型的擬合效果。核函數所需搜尋調優的參數有懲罰參數(C)和核參數(g),采用網格搜尋法搜尋最優參數。本文擬合模型使用的核函數有:徑向核、線性核、多項式核、S形核。

1.3.4 隨機森林模型

隨機森林是通過集成學習的裝袋思想將多棵決策樹集成的一種算法。隨機森林通過多次自主采樣法抽取多個隨機樣本,通過這些樣本分別建立相對應的決策樹,從而構成隨機森林模型。本文使用R軟件中的隨機森林(RF)包進行隨機森林模型的擬合與預測。模型擬合過程中影響的3個重要參數為:決策樹的數目(n)即使用自主采樣法重抽樣的次數、樹節點隨機抽取的變量個數(m)即使用到輸入變量的個數、決策樹節點最大個數。本研究中主要對決策樹的數目(n)、樹節點隨機抽取的變量個數(m)和決策樹節點最大個數進行尋優,其他參數均使用默認值。

1.3.5 梯度提升回歸樹模型

梯度提升回歸樹的本質是由許多決策樹組成的集成模型。梯度提升回歸樹通過構建M個弱分類器,經過多次迭代運算最終組合而成一個強分類器進行預測。它在原有的模型基礎上進行迭代改進,使得下一次擬合構建的模型比上一次的模型擁有更小的誤差,以在殘差減小的梯度方向上建立新的組合模型。采用R語言中的gbm包進行模型的擬合與預測。其中需要調整的參數有學習率(η)、交互深度(d)、終節點最小規模和子抽樣比例,對模型最優參數組合采用網格搜索的方式進行搜尋。

1.4 異方差校正

傳統生物量模型易產生異方差現象,即輸出結果誤差會隨著預測值的增大而增大。本文采用冪函數、指數函數和常數加冪函數等3種加權回歸法,消除異方差對于傳統生物量模型參數估計的影響。通過比較赤池信息準則(AIC)和貝葉斯信息準則(BIC)數值選擇最優方差函數。

指數函數——g(ui,θ)=exp(θui);

冪函數——g(ui,θ)=|ui|θ;

常數加冪函數——g(ui,θ)=θ1+|ui|θ2。

式中:ui為方差函數變量;θ、θ1和θ2為參數。

1.5 模型擬合與檢驗評價指標

模型評價指標采用確定系數(R2),均方根誤差(RMSE),平均絕對誤差(MAE),相對誤差絕對值(MPB)和赤池信息準則(AIC),使用這幾個指標來綜合評價模型的擬合和預測效果。本文也選用Z檢驗來評價模型的無偏估計能力,以判斷模型泛化結果與真實值是否存在顯著差異。上述指標的計算公式如下:

2 結果與分析

2.1 傳統生物量模型擬合及異方差校正

由表2可知,采用指數函數、冪函數、常數加冪函數進行異方差校正。選取生物量實際值(W)、胸徑(D)和樹高(H)作為方差函數的變量對傳統生物量模型校正。當冪函數變量為生物量實際值時,赤池信息準則(AIC)和貝葉斯信息準則(BIC)的值最小,因而選用冪函數進行生物量模型校正。

由圖1可知,殘差隨著預測值的增大而呈現喇叭狀分布,說明傳統生物量模型產生了異方差現象;校正后模型殘差不再呈喇叭狀擴散分布,而是均勻的隨機分布,說明該方差函數有效的消除了模型的異方差現象。

最終可得模型參數為a=0.035 59,b=1.853 59,c=0.954 47,傳統生物量模型表達式如下:W=0.035 59×D1.853 59×H0.954 47。

圖1 傳統生物量模型殘差圖

表2 傳統生物量模型誤差方差函數結果

2.2 人工神經網絡模型預測結果

2.3 支持向量機回歸模型預測結果

核函數的選擇是支持向量機回歸模型構建的核心。擬合支持向量機回歸模型主要為兩個步驟:搜索核函數的最優參數;使用最優參數擬合模型。通過網格搜索法搜索徑向核的最優參數,懲罰系數(C)值的取值范圍設置為(0,1 000),核函數(g)值的取值范圍設置為(0,1)。由表3可知,當核函數為徑向核時模型的擬合精度最高。經搜索確定核函數的最優參數C值為101、g值為0.03時,模型的擬合精度最高,徑向核的確定系數(R2)達到0.960 1。因而支持向量機模型的核函數選擇徑向核,C值設置為101、g值設置為0.03進行模型構建。

圖2 不同神經元的人工神經網絡模型精度對比

2.4 隨機森林模型預測結果

由圖3可知,均方誤差隨著決策樹數量的增加而變化,當決策樹的數量達到1 500時,其均方誤差已經基本趨于穩定,即使繼續增大決策樹的數量,誤差也不會有太大變化,故設置隨機森林的決策樹數量為1 500。樹節點隨機抽取的變量個數的數量與模型輸入變量的數量有關,由于該模型的輸入變量為2個,所以樹節點隨機抽取的變量個數(m)的取值為[1,2],由試錯法可知當m=1時,模型擬合精度最高且誤差達到最小。隨機森林是以決策樹為基礎的模型,決策樹的最大節點數對其擬合精度影響較大。隨機森林不同節點數的決策樹數量不同,隨機森林節點數范圍為(39,56),將決策樹節點最大個數采用依次試錯法,當決策樹節點最大個數為50時模型擬合精度最高。故將模型的決策樹的數量設置為1 500,變量個數(m)設置為1,決策樹節點最大個數設置為50時,進行模型的構建。

表3 核函數擬合結果

圖3 不同決策樹數量時隨機森林的均方誤差曲線

2.5 梯度提升回歸樹預測結果

梯度提升回歸樹是通過多個弱訓練器進行多次迭代訓練最后組成一個強訓練器。迭代次數即是決策樹數量(M),因而決策樹的數量對于模型擬合結果影響較大。對于梯度提升回歸決策樹的初始數量默認設置為600棵來進行搜尋。

由圖4可知,均方誤差隨著決策樹數量的增加而不斷下降,當決策樹數量為471時,其均方誤差達到最小??傻媚P妥顑灥螖禐?71,與最初所設的數量600棵十分接近。模型利用網格搜索法尋優,將學習率的搜索范圍設置為[0.01,1.00],交互深度范圍設置為[2,6],終節點最小規模范圍設置為[5,10],子抽樣比例范圍設置為[0.5,1.0]。最終搜索最優參數組合為學習率為0.01,交互深度為2,終節點最小規模為5,子抽樣比例為0.5時,模型的擬合效果最好。

圖4 不同決策樹數量時的GBRT模型的誤差曲線

2.6 模型評價與檢驗

由表4可知,基于訓練數據,機器學習算法的擬合效果均優于傳統生物量模型。根據各模型的擬合精度由高到低順序為:隨機森林、梯度提升回歸樹、人工神經網絡、支持向量回歸、傳統生物量模型。相對于傳統生物量模型,隨機森林的均方根誤差、平均絕對誤差、相對誤差絕對值、赤池信息準則(AIC)分別降低了44.47%、42.81%、42.80%和18.17%。根據測試數據,得出了與訓練數據基本一致的結果,即機器學習算法的預測精度均高于傳統生物量模型,其中隨機森林的預測精度最高。

表4 生物量的模型擬合與預測結果評價

由圖5可知,隨機森林的預測效果最好,基本與45度線重合。

由表5可知,評價模型的無偏估計能力,使用置信度為95%的Z檢驗,驗證訓練和測試數據的泛化結果與真實值的分布,各模型的P值均大于0.05,故接受零假設(H0),即各模型預測值與真實值之間無顯著差異。

圖5 5種模型預測和實際生物量的散點圖

表5 生物量模型的Z檢驗結果

3 討論與結論

以興安落葉松為例,構建了傳統的地上生物量模型,并進行了異方差校正?;谙嗤淖兞繕嫿?種機器學習模型,結果表明,4種機器學習算法可以更好的預測興安落葉松的地上生物量。各模型根據測試數據的預測精度由高到低的排序為:隨機森林、人工神經網絡、梯度提升回歸樹、支持向量回歸、傳統生物量模型。其中,隨機森林模型的預測精度最高,相比于傳統生物量模型,隨機森林模型的均方根誤差降低了10.95%,平均絕對誤差降低了10.34%,相對誤差絕對值降低了10.34%。

傳統生物量模型的結構簡單,但通常要滿足假設前提,如獨立、正態和方差異質性等。隨著計算機技術的發展,尤其是機器學習算法的出現解決了傳統模型不能解決的問題。Ye et al.[26]使用SVR、ANN、RF 3種機器學習算法對刺槐人工林的地上生物量進行估算,表明RF模型為估算刺槐人工林地上生物量的最佳模型;Wongchai et al.[21]對三種速生喬木進行建模,發現隨機森林相對于其他機器學習算法擁有更高的預測精度。

本研究采用的機器學習模型與傳統參數模型都是采用相同變量構建。Li et al.[27]認為變量選擇是機器學習算法非常重要的部分,變量的選擇顯著影響模型的預測精度。一些算法的精度雖然高于傳統生物量模型但并沒有大幅度提高,導致這些結果的原因是模型擬合過程中只輸入了基本的單木測樹因子,落葉松的地上生物量與林分因子、立地條件、氣候條件等也有著緊密的相關性。隨著數據的積累,未來可以將林分和環境變量因子引入模型,選擇有效且相關的變量作為機器學習模型的輸入變量可以被認為是進一步提高機器學習算法模型預測能力的手段。

猜你喜歡
決策樹方差生物量
方差怎么算
概率與統計(2)——離散型隨機變量的期望與方差
輪牧能有效促進高寒草地生物量和穩定性
一種針對不均衡數據集的SVM決策樹算法
計算方差用哪個公式
決策樹和隨機森林方法在管理決策中的應用
方差生活秀
基于決策樹的出租車乘客出行目的識別
生物量高的富鋅酵母的開發應用
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合