?

機器學習中混合特征選擇對模式預報廣西春夏氣溫的訂正研究

2023-10-28 07:30李德倫肖志祥謝寧新
成都信息工程大學學報 2023年5期
關鍵詞:特征選擇時效氣溫

李德倫, 肖志祥, 謝寧新, 龔 榮

(1.廣西民族大學電子信息學院,廣西 南寧 530000;2.廣西壯族自治區氣象科學研究所,廣西 南寧 530022;3.廣西民族大學人工智能學院,廣西 南寧 530000)

0 引言

近年來數值計算方法和高性能計算技術的迅速發展,數值模式已成為現代天氣預報的基礎,但其受地形、模式初始場、參數的不確定性等諸多因素的影響存在著一定的誤差[1]。 氣溫是最重要的預報要素之一,對它的精確度和精細化預報也有更高的要求。 因此,開展數值模式訂正技術研究,提升溫度的預報精度不僅能提高社會經濟效益,還為日常生產活動帶來便利。

當前對數值模式氣溫的訂正主要有傳統統計和機器學習兩種方法。 傳統統計方法主要包括滑動周期法[2]、雙線性插值法[3]、一元或多元線性回歸法[4-5]、遞減平均法[6]和卡爾曼濾波法[7]等。 這些統計方法經過長足的發展,對數值模式氣溫預報準確率的提升有巨大的推動作用。 但隨著海量數值模式數據的出現以及對氣溫預報精細化要求的不斷提高,大氣系統高度非線性特征使得傳統的線性氣溫訂正模型難以進一步提升預報效果。

機器學習方法對非線性問題和大數據的處理具有獨特的優勢,已被廣泛應用于數值模式的訂正。 有研究表明,RF、XGBoost、LightGBM 等機器學習算法能有效降低數值模式氣溫預報的誤差[8-11]。 特征選擇是機器學習領域一個重要的預處理步驟。 在不弱化算法能力的基礎上,從原始特征中選擇出最有效的特征,可簡化學習任務,大大縮減算法的運行時間,提升模型效率并增強可解釋性[12-13]。 常用的特征選擇方法主要有3種:過濾法,具有簡單高效的優點,但其存在跟后續學習算法不關聯的弊端,導致無法針對性的選出相應模型合適的特征集合,如Spearman 相關系數法[14-15];包裹法,其選出的特征集合性能較好,但通用性較差且計算復雜度高、開銷大,如遞歸特征消除法[16-17];嵌入法,性能較好,但一定程度上依賴于參數調整,結果穩定性相對較差,計算復雜度介于過濾式和包裹式之間,如XGBoost 特征選擇法[18-19]。

單一的特征選擇方法在特征選擇過程中可能會過濾掉一些潛在信息,導致結果穩定性差,而通過組合不同的特征選擇方法,發揮各自優勢,通??梢蕴岣咝阅躘20]。 Spearman 相關系數和XGBoost 特征重要性是機器學習中最常用的兩種特征選擇方法,但優缺點同樣明顯。 本文融合兩種方法的優勢,提出了SpearmanXgb 混合特征選擇方法,并結合預測性能和泛化能力較好的RF、XGBoost、LightGBM 3 種常用機器學習算法[21-22]對廣西地區ECMWF 近地面2 m氣溫模式格點預報進行誤差訂正,為提升模型訂正效果、實現氣溫的精準預報提供一種新的嘗試。

1 數據和方法

1.1 數據

使用的數據來源于歐洲中期天氣預報中心(european centre for medium-range weather forecasts,ECMWF)網站(https:/ /www. ecmwf. int/en/research/projects/tigge)公開的TIGGE 數值模式數據。 數據包含逐日00:00 時的分析場(0 時刻場)和預報時效為24 ~240 h 的預報場。 數據時間范圍為2015-2020 年的春季和夏季(3-8月),空間范圍為20 °N~27 °N,104 °E~113 °E,水平分辨率為0.5°×0.5°,共285 個格點。 ECMWF 模式輸出數據總共24 個氣象要素,除近地面2 m氣溫外其余的23個要素作為模型特征(表1)。

表1 ECMWF 數值預報的23 個氣象要素

ECMWF 模式的分析場由其觀測的氣象數據通過模型預測和數據同化得來,廣泛應用于相關研究[23-24]。 本文將近地面2 m氣溫的00:00 時的分析場作為機器學習模型的標簽,將標簽所處時刻模式預報的23 個要素作為機器學習模型的特征,以此對ECMWF 模式的近地面2 m氣溫進行訂正。

1.2 方法

1.2.1 特征選擇

(1)Spearman 相關系數

Spearman 相關系數也被稱為等級相關系數,反映特征之間的關聯程度,并且它不依賴于樣本的分布。公式[24]如下:

式中,di=x′i-y′i,x′i表示觀測值xi的等級,y′i表示觀測值yi的等級,n為樣本數量。

Spearman 相關系數絕對值在0.8 ~1.0 表明相關性極強,在0.6 ~0.8表明有較強相關性,在0.4 ~0.6表明相關性中等,在0.2 ~0.4表明相關性較弱,在0~0.2表明相關性極弱或不相關[25]。

(2)XGBoost 特征重要性

XGBoost 是Chen 等[26]在2016 年提出的基于梯度下降決策樹改進的機器學習模型,使用的特征重要性計算方法是信息增益,公式如下:

Spearman 相關系數法能夠在模型建立前快速過濾掉一些相關性差的特征,方法簡單快速,但缺點是可能會選入冗余特征或剔除有用特征,得到的不是最優特征子集,造成模型預測性能不佳。 而XGBoost 特征重要性法其特征選擇過程與模型訓練是同步完成的,通常所選的特征子集能得到比Spearman 特征選擇更好的模型回歸效果,但計算復雜度高、耗時長且容易過擬合。 因此,本文提出混合特征選擇(SpearmanXgb)方法,充分發揮二者的優勢,即先通過Spearman 相關系數法快速剔除一些特征,降低數據規模,從而加速XGBoost 特征重要性的計算過程,得到最優特征子集,提升模型預測性能。

1.2.2 3 種機器學習方法

(1)RF

隨機森林是Leo Breiman[27]在2001 年提出的基于決策樹的集成學習算法。 其構建過程如下:

(i)從輸入樣本中以隨機且有放回的方式抽取與輸入同等數量的樣本,構建k棵決策樹。

(ii)在對決策樹的每個節點進行分裂時,從全部N個特征中隨機抽取n個特征(n

(iii)將生成的k棵決策樹組合成森林,其平均值作為模型的最終輸出結果。

(2)XGBoost

XGBoost 是基于CART 樹的一種集成學習算法。假定有k棵CART 樹,則XGBoost 算法的預測值為k棵CART 樹的預測值總和,公式如下:

式中,fk(xi)表示第k棵CART 樹的輸出結果,^yi表示XGBoost 算法對第i個樣本的預測結果。

(3)LightGBM

LightGBM 是一個基于決策樹的GBDT 算法框架,它在GBDT 算法的基礎上主要進行了直方圖算法和按葉子生長策略等優化[28]。 直方圖算法是指把連續的浮點特征值轉化成k個離散值,并構造一個以k為寬度的直方圖,然后根據直方圖的離散值來作為特征最優分裂點的選取方式,能達到減少內存開銷的效果;按葉子生長策略是指決策樹是帶有深度限制的按葉子生長,區別于大部分GBDT 算法的按層生長策略。 在分裂次數相等的情況下,按葉子生長策略能夠得到更好的精度。

2 預測模型構建

采用RF、XGBoost 和LightGBM 3 種機器學習算法分別對近地面2 m氣溫進行預報。 基于機器學習的氣溫預報模型流程圖如圖1 所示。

圖1 機器學習氣溫預測流程圖

(1)數據預處理:對數據集中損壞的數據進行剔除。 按模式數據起報時間將數據分為訓練集(2015-2019 年的3-8 月)和測試集(2020 年的3-8 月)。

(2)特征選擇:計算23 個特征與標簽之間的Spearman 相關系數,剔除相關性弱(0 ~0.2)的N個特征,將剩余特征輸入XGBoost 算法;然后計算剩余特征的特征重要性權重,按從大到小排序,得到1,2,…,23-N的特征排序,并依次輸入XGBoost 算法。 當XGBoost 模型的均方根誤差(RMSE)下降幅度很小且開始趨于收斂時,此時的特征子集則為最優特征子集。

(3)將最優特征子集分別輸入RF、XGBoost 和LightGBM 進行訓練,得到3 種預報模型。

(4)將測試集輸入訓練好的模型,得到訂正后的氣溫預測值,評估模型的預報性能。

(5)使用SHAP 值并結合訂正后的氣溫預測值對機器學習模型進行分析。

經過Spearman 相關系數特征選擇后,預報時效24 h和48 h分別有6 個特征,72 ~240 h分別有7 個特征因相關系數小于0.2 被首先剔除。 然后通過XGBoost 特征重要性由高到低排序來確定特定數量的特征組合下的10 個預報時效的平均RMSE 隨特征數量的變化(圖2)。 當特征數量為13 時,XGBoost 模型的平均RMSE 下降幅度很小,并開始趨于平穩,表明此時的特征子集使得模型的效率和精度達到了平衡點。 因此,該特征子集即為模型最優特征子集。

圖2 XGBoost 特征選擇

由于不同預報時效選擇的特征不同,本文以預報時效24 h為例(圖3)。 經過3 種特征選擇方法選擇后的13 個特征各有差異,但也有相似之處。 3 種方法篩選后最重要的前4 個特征均為過去6 h 2 m最高溫度、地表溫度、2 m露點溫度和土壤溫度,表明2 m氣溫與過去6 h 2 m最高溫度、地表溫度、2 m露點溫度和土壤溫度之間關聯性最強。

圖3 3 種方法的特征選擇結果

RF、XGBoost 和LightGBM 在特征選擇后平均訓練時間均有較大幅度的縮短。 其中,經過混合特征選擇后平均訓練時間縮短的幅度最大,RF、XGBoost 和LightGBM 的訓練時間分別縮短了57.3%,60.7% 和51.4%(表2)。 SpearmanXgb 方法使XGBoost 模型的RMSE 略微下降,RF 和LightGBM 的RMSE 略微上升(不到1%),其余兩種特征選擇方法都使3 種機器學習模型的平均RMSE 略微增大(圖4)。 結果充分表明特征選擇能夠篩選出對氣溫有關的主要特征。 另一方面,SpearmanXgb 特征選擇方法的平均RMSE 相對Spearman 和XGB 分別下降了0.94%和0.64%。 從訓練時間和均方根誤差上,SpearmanXgb 混合特征選擇方法都要優于單一的特征選擇方法。 因此,本文主要對SpearmanXgb 特征選擇方法的結果進行分析。

圖4 3 種特征選擇方法10 個預報時效平均RMSE 對比

表2 3 種特征選擇方法平均訓練時間對比單位:s

3 結果與分析

3.1 各預報時效訂正

分別采用RF、XGBoost 和LightGBM 3 種機器學習算法,對預報的廣西近地面2 m氣溫進行訂正。 為分析機器學習算法隨著預報時效的增加對模式氣溫訂正的整體趨勢和變化,對3 種機器學習模型和模式的預報結果進行評估(圖5)。

圖5 3 種機器學習模型及ECMWF 的RMSE 隨預報時效的變化

從圖5 可以看出,3 種模型的RMSE 均小于ECMWF,表明3 種機器學習模型的預報效果均優于ECMWF。 隨著預報時效的增大,3 種訂正方法和ECMWF的均方根誤差都呈現上升趨勢且上升幅度相似。 10個預報時效的平均預報效果最好的是XGBoost,其平均RMSE 為1.2112 ℃,其次是LightGBM,RF 和ECMWF,平均 RMSE 分別為1.2125 ℃、 1.2169 ℃和1.3090 ℃。 3 個模型的平均RMSE 相比ECMWF 分別降低了7.04%、7.47%和7.37%。 3 種機器學習算法的訂正效果較接近,但又有差異。 在預報前期(24~96 h),XGBoost 的表現最好,其次是LightGBM 和RF;在預報中后期(120 ~240 h),LightGBM 的預報效果最優,然后是XGBoost 和RF。

3.2 2 m 氣溫的季節差異

3 個模型和ECMWF 對氣溫的預報具有顯著的季節差異(圖6),夏季(6-8 月)的預報效果比春季(3-5月)好。 在夏季,RF、XGBoost、LightGBM 和ECMWF 10個預報時效的平均 RMSE 分別為0.8402 ℃,0.8358 ℃,0.8410 ℃和0.9271 ℃,其中XGBoost 訂正效果最好。 在春季,RF、XGBoost、LightGBM 和ECMWF 的平均均方根誤差分別為1.6091 ℃、1.6024 ℃、1.6008 ℃和1.7096 ℃,LightGBM 訂正效果最好。

圖6 3 種機器學習模型和ECMWF 的RMSE 時間序列

3.3 2 m 氣溫的空間差異

以預報時效48 h、144 h、216 h為例。從氣溫預報效果的空間分布上看(圖7),3 種訂正方法和ECMWF的RMSE 在空間上呈現出相似的分布,但在模式誤差較大的地方,機器學習方法的訂正效果更明顯。 預報時效48 h和144 h,廣西地區的東南部的RMSE 相對較高,其余格點RMSE 較低;預報時效216 h,廣西地區東北部的RMSE 最高,西部和東南部的RMSE 較低。 總體而言,廣西地區中部地形以盆地、平原為主,RMSE較低,訂正效果好;東南部和東北部地形以山地、丘陵為主,更容易受到臺風、前汛期降水等復雜天氣過程的影響,氣溫變化幅度較大,訂正效果要差一點。

圖7 預報時效48 h、144 h、168 h 的ECMWF、RF、XGB 和LGB 的RMSE 空間分布

3.4 SHAP 模型分析

Lundberg 等[29]在2017 年提出基于SHAP(shapley additive exPlanations)值的可解釋模型,以提高機器學習模型的可解釋性。 其基本思想是把單個特征在所有特征序列的邊際貢獻的均值作為該特征的SHAP 值,通過它來解釋特征做出相應預測的內在邏輯,已被廣泛應用于企業投資策略[30]、新能源汽車電荷預測[31]、醫學臨床治療[32]等領域。 因此,本文采用SHAP 值對機器學習模型中影響氣溫的特征進行分析。 根據氣溫預報的空間分布結果,預報前期廣西東南地區誤差較大,預報后期東北地區誤差較大,這是機器學習模型和ECMWF 模式預報的共同特點。 因此,本文對預報時效72 h的其中一個模型(XGBoost)的結果進行分析(圖8)。

圖8 XGBoost 模型預報的72 h 氣溫各特征SHAP 值

圖8 表示模型每個特征所有樣本的情況,一個點代表一個樣本。 縱坐標為經過重要性排序的特征子集,即過去6 h 2 m最高溫度(mx2t6)重要性程度最高;橫坐標為SHAP 值,顏色越紅表示該特征數值越大則模型預測的氣溫越高,藍色含義相反。 在這個模型中,mx2t6 的SHAP 值范圍很廣,說明mx2t6 的大小變化對模型的預報結果有很大的影響:即較大的mx2t6 取值會增大氣溫的預測值,較小的取值則會減小氣溫的預測值。 而海陸分布(lsm)除了對該時效模型的貢獻較小外,其SHAP 值分布范圍極小,說明該模型的預報結果對海陸分布的取值不敏感。

由于重要性最高的mx2t6 沒有00:00 時的分析場數據,所以選擇重要性排第二的地表溫度(skt)進行分析。 將XGBoost 模型中地表溫度的預報場數據替換為分析場數據,并對比替換前后結果(圖9)。

圖9 ECMWF 和XGBoost 模型RMSE 的空間分布

從圖9 可以看出,ECMWF 預報的氣溫、地表溫度和XGBoost 模型預報的氣溫空間誤差分布非常相似,誤差中心都集中在廣西南部邊緣地區。 說明地表溫度的誤差對模型的預報效果有很大影響,如果改善模式中地表溫度的預報效果,是否可以提升對氣溫的預報效果。 在實驗中把地表溫度的預報場數據替換為分析場數據,而模型中的其他特征保持不變,重新放入XGBoost 模型,替換前后結果如圖9(c ~d),替換前模型預測的 RMSE 為1.4940 ℃, 替換后 RMSE 降為1.1382 ℃。 可以看出替換后模型預報的溫度誤差明顯下降,尤其是誤差較大的東南部地區。 這說明ECMWF 模式預報的空間誤差很大程度上是由于地表溫度預報的空間誤差所造成的。

考慮到地表溫度與2 m氣溫具有很大的相關性,因此選擇與2 m氣溫相關性弱但特征重要性相對較高的平均海平面氣壓(msl)進一步檢驗。 結果表明,替換前模型預測的RMSE 為1.4940 ℃,替換后RMSE 降為1.4864 ℃,同樣能改善模型的預報效果,但相比特征重要性較高的地表溫度改善效果弱一點。 通過SHAP 值分析找出影響模式預報效果的要素并對其進行檢驗,從而為改善模式氣溫預報效果提供一些思路。

4 結論

(1)SpearmanXgb 混合特征選擇方法在訓練時間和均方根誤差兩方面,均優于單一的特征選擇方法,對大型數據集能夠發揮更大作用。

(2)從10 個預報時效(24 ~240 h)的平均RMSE看,RF、XGBoost 和LightGBM 的平均RMSE 相比ECMWF 分別降低了7.04%、7.47%、7.37%。 3 種機器學習算法的訂正效果差別較小,但均優于ECMWF。 在預報前期(24 ~96 h),XGBoost 的預報效果最好,其次是LightGBM 和RF;在預報中后期(120 ~ 240 h),LightGBM 的預報效果較好,其次是XGBoost 和RF。

(3)模型的預報效果受模式本身的預報誤差影響很大。 ECMWF 的預報場在春季的誤差較大,夏季的誤差較小,機器學習算法受此影響,春季的預報效果相比夏季要差一些。 由于廣西地處云貴高原往兩廣丘陵的過渡地帶,桂東南部和桂東北地形以山地、丘陵為主,地形較為復雜,且是臺風、華南前汛期等復雜天氣過程影響的前沿陣地,氣溫變化幅度較大,模式的預報效果較差,因此模型的訂正效果也較差。

(4)利用SHAP 值揭示了各個特征取值對預測結果的正負效應,很好地解釋了機器學習模型做出相應預測的內在邏輯。 通過對入選特征進行檢驗為改善模式對氣溫的預報提供一些思路。

猜你喜歡
特征選擇時效氣溫
基于FY-3D和FY-4A的氣溫時空融合
深冬氣溫多變 蔬菜管理要隨機應變
Kmeans 應用與特征選擇
J75鋼的時效處理工藝
一種新型耐熱合金GY200的長期時效組織與性能
環保執法如何把握對違法建設項目的追責時效?
聯合互信息水下目標特征選擇算法
與氣溫成反比的東西
X80管線鋼的應變時效行為研究
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合