?

基于機器學習的韶關地區短期日平均氣溫研究

2022-12-06 07:23羅燁泓
陜西氣象 2022年6期
關鍵詞:實測值平均氣溫線性

羅 威,羅燁泓,王 威

(1.興寧市氣象局,廣東興寧 514500;2.韶關市氣象局,廣東韶關 512028;3.深圳市氣象局,廣東深圳 518000)

自工業革命以來,人類活動所導致的大氣二氧化碳排放量劇增,更多的熱量被截留在大氣層內,致使地球氣溫增高。受此影響,全球平均表面溫度自工業革命以來表現出顯著的上升趨勢。全球變暖會引起冰雪融化、凍土消融、海平面上升、極端天氣頻發等,其嚴重威脅了全球自然生態系統,乃至人類的生存[1-6]。為此,開展針對全球氣溫的精細化預報研究具有重要現實意義。

近年來,監督類機器學習(樹模型、支持向量機、神經網絡等)和深度學習算法等各類機器學習算法已在氣象短臨[1]、中短期[2]乃至長期預報[3]等領域發揮了積極的重要作用,其在相關領域中的表現要顯著優于統計和主觀經驗等傳統方法。相較于其他方法而言,監督類機器學習算法能夠更有效綜合應用來自觀測、數值模式等多源數據,據此可更有效地提取大氣的非線性演化特征,進而提升數值模式的天氣預報效果。然而,受地形、模式參數化方案等不確定性因素的共同影響,目前數值預報模式對氣溫的預報尚存在一定的偏差,尤其對于中小城市、偏遠以及具有復雜地形的地區而言,預報方法通常僅依賴于數值模式,且缺乏有效的補充與優化方法。韶關地區地處南嶺山脈南麓,屬于亞熱帶季風氣候區,夏無酷暑,冬無嚴寒,雨量充沛,日照溫和,氣候條件優越,生態與旅游資源豐富,并且是廣東省重要的糧食蔬菜供應地、農業大市。因此,針對韶關地區等中小城市氣溫預報業務算法的開發對推動氣象業務的精細化預報具有重要意義。為此,僅利用1965—2017年韶關地區8個站點的日平均氣溫觀測資料,構建了基于歷史數據驅動與機器學習方法的短期氣溫預報模型,以期為中小城市乃至偏遠地區的氣溫業務預報的改進提供參考,為當地生態環境的改善、社會經濟的發展提供科學決策依據。

1 資料和方法

1.1 資料介紹

基于1965—2017年韶關地區8個臺站(南雄、曲江、樂昌、仁化、乳源、始興、翁源和新豐)的日平均氣溫,求取上述8個站點日平均氣溫的平均值。臺站的基本信息見表1。

表1 韶關地區各個臺站基本信息

1.2 方法介紹

本文用于短期氣溫預報的算法分別有傳統回歸方法——逐步多元線性回歸法和機器學習方法——LightGBM(light gradient boosting machine)和BP-NN(back propagation neural network)。短期日平均氣溫預報的流程主要可概括如下:(1)將連續nd的日平均氣溫(T1,T2, ……,Tn)作為自變量,將第n+1,n+2,n+3天所分別對應的日平均氣溫Tn+1,Tn+2,Tn+3作為因變量來構建預報Tn+1,Tn+2,Tn+3的模型。(2)n是決定Tn+1,Tn+2,Tn+3預報精度的重要參數,因此在1~365 d的范圍內對n進行遍歷,最終確定了n=7時可使T8,T9,T10的預報效果達到最優。即將過去連續7 d的日平均氣溫(T1,T2, ……,T7)作為自變量,以未來3 d日平均氣溫(T8,T9,T10)作為因變量,來構建相應的日平均氣溫預報模型。

1.2.1 逐步多元線性回歸 逐步多元線性回歸[4]是基于最優的自變量來構建回歸模型,其較好地解決了傳統多元線性回歸法中所存在的共線性問題[5],從而有利于回歸模型獲得更加精確的計算效果。目前,多元逐步線性回歸法已被廣泛應用于氣象領域,其詳細流程可詳見文獻[4]。

1.2.2 LightGBM(light gradient boosting machine)算法 LightGBM[6]是微軟在2017年提出的基于GBDT的算法。相較于傳統樹模型而言,LightGBM預報精度更高、模型泛化性更強、計算效率更快,適用于大規模數據集的并行計算。LightGBM算法的原理參照文獻[6]。

1.2.3 BP-NN(back propagation neural network)算法 BP-NN算法的原理參照文獻[7]。為避免權重參數過多而引起過擬合,本文的BP-NN僅5層,由1層輸入層、3層隱藏層、1層輸出層組成,其中隱藏層的特征維度為100。為了增強BP-NN的訓練/預報效果,采用如下優化機制。(1)Kaiming初始化方案[8];(2)Relu激活層[9];(3)L2正則化方案[10],權重衰減系數為0.000 1;(4)Adam優化算法;(5)余弦退火的學習率衰減策略:學習率隨訓練迭代次數的增大而呈現余弦的周期形態變化,變化的周期為100次迭代,學習率最大值為0.001,最小值為0.000 01;(6)均方誤差(mean square error, MSE)的損失函數;(7)自變量與因變量均采用最大最小值歸一化。

2 結果與分析

2.1 Tn+1, Tn+2, Tn+3與T1~n之間的相關性

表2為Tn+1,Tn+2,Tn+3與T1~n(n=7)之間的相關性,從表2可見,隨著自變量與因變量之間時間間隔的增大,其對應的相關性逐漸降低,但總體仍十分顯著。因此,其顯著的相關性為以歷史日平均氣溫作為自變量來預報未來短期內的日平均氣溫奠定了基礎。

表2 未來日平均氣溫與歷史日平均氣溫之間的相關性

2.2 三種短期日平均氣溫預報模型的構建

取1965—2014年的日平均氣溫作為逐步多元線性回歸法建模數據集,并作為LightGBM與BP-NN模型的訓練集,2015—2016年的作為兩種機器學習模型的驗證集,2017年的則作為上述三種模型適用性分析的測試集。其中訓練集用于訓練構建上述三種模型,驗證集用于監控機器學習模型的訓練情況。當LightGBM與BP-NN超過100次的訓練迭代而驗證集誤差不再下降時則停止訓練,以防過擬合。兩種模型均訓練迭代1 000次,訓練結束后保存驗證集誤差最低的模型。

2.2.1 基于逐步多元線性回歸的模型 日平均氣溫之間顯著的相關性(表2)極易帶來共線性問題,進而導致普通線性回歸方法存在計算的不穩定性問題。為此,本文采用了逐步線性回歸方法來構建短期日平均氣溫預報模型。

通常情況下,可認為方差膨脹因子≤10時不存在明顯的共線性[5]。據此,預報未來1~3 d短期日平均氣溫的多元逐步線性回歸方程如下。

T8=0.656+0.967T7,

(1)

T9=1.024+0.757T7+0.192T2,

(2)

T10=1.551+0.645T7+0.278T3。

(3)

通過逐步多元線性回歸分析發現,在滿足方差膨脹因子≤10的條件下,T8的自變量因子僅為T7,也表明T1~6與T7之間存在顯著的共線性;T9的自變量因子為T7和T2,其對應的方差膨脹因子均為3.545;T10的自變量因子則為T7和T3,其對應的方差膨脹因子均為3.876??梢姇r間間隔更久遠的氣溫反而可能是未來氣溫的重要影響因子。建模數據集的擬合結果表明,式(1)、式(2)和式(3)的計算值與實測值之間的擬合相關系數分別為0.97、0.93、0.90,擬合平均絕對誤差(mean absolute error, MAE)分別為1.32、2.04、2.42 ℃。

2.2.2 基于LightGBM的模型 利用LightGBM算法計算的訓練集T8,T9,T10與實測值之間的擬合R分別為0.98、0.95、0.93,MAE則分別為1.09、1.68、2.00 ℃。

2.2.3 基于BP-NN的模型 利用BP-NN算法計算的訓練集T8,T9,T10與實測值之間的擬合R分別為0.97、0.93、0.91,MAE分別為1.22、1.94、2.30 ℃。

2.3 三種模型的適用性

從2.2節針對三種短期日平均氣溫預報模型的建模結果可知,LightGBM的預報效果最優,BP-NN次之,逐步多元線性回歸最差。將上述三種算法應用于2017年的測試集,就各自在短期日平均氣溫預報中的適用性展開系統分析。

首先分別繪制了上述三種算法日平均氣溫預報值與實測值之間的時間序列圖(圖1)。從圖1可知,針對T8的預報效果而言,逐步多元線性回歸、LightGBM、BP-NN的預報值與實測值之間的R分別為0.97、0.98、0.97,MAE分別為1.25、1.17、1.22 ℃;T9的R分別為0.93、0.94、0.93,MAE則分別為1.88、1.76、1.87 ℃;T10的R分別為0.89、0.93、0.91,MAE則分別為2.22、1.96、2.12 ℃??梢娙N算法在測試集上的預報效果與訓練集表現基本一致,具有優良的泛化性,其中LightGBM的預報效果最優,BP-NN次之,逐步多元線性回歸最差。

圖1 三種模型日平均氣溫預報值與實測值的時間序列(a 逐步多元線性回歸;b LightGBM;c BP-NN)

在實際的氣溫預報業務中,當氣溫的預報誤差小于2 ℃時可認為預報正確。為此,分別統計了三種算法日平均氣溫預報值的準確率及其與實測值之間的MAE(表3)。從表3可知,就T8的預報結果而言,三者預報準確率可分別高達83.29%、84.38%、82.73%,MAE為1.25、1.17、2.22 ℃;就T9而言,三種模型的差異性明顯體現,三者預報準確率分別為64.38%、69.86%、63.56%,MAE為1.88、1.76、1.87 ℃;就T10而言,三者預報準確率分別為56.44%、61.37%、59.18%,MAE為2.22、1.96、2.12 ℃。

表3 三種模型日平均氣溫的預報結果評價指標

綜上可見,相較于逐步多元線性回歸法和BP-NN而言,LightGBM不僅在相關系數以及精確度上更占優勢,并且具有更高的預報正確率。尤其隨著預報時效的增大,LightGBM具有更優的預報效果,而BP-NN與逐步線性回歸法的預報效果則均急劇下降,說明LightGBM具有最優的預報穩定性。推測樣本數量較少可能是三種模型預報效果存在顯著差異的最主要原因。傳統的機器學習模型,如LightGBM、Xgboost、Catboost等更適用于百萬級以下的樣本量。

明確模型預報誤差的時間分布情況對于提高氣溫的預報精度具有重要意義。為此,繪制了三種模型日平均氣溫預報值與實測值之間絕對誤差(absolute error, AE)的時間序列圖(圖2)。從圖2可見,相同預報時效,三種模型所表現的AE波動形態基本一致。但總體而言,LightGBM的AE及其波動幅度最小,其預報未來3 d氣溫絕對誤差的標準差(standard deviation,STD)分別為1.09、1.53、1.65 ℃;BP-NN次之,STD分別為1.15、1.66、1.97 ℃;逐步線性回歸最大,STD則分別為1.23、1.73、2.00 ℃。此外,逐步多元線性回歸以及BP-NN的AE及其波動幅度均隨著預報時效的增大而顯著增大,但LightGBM則相對最為穩定。另外從圖2不難看出,三種模型AE的大值區基本位于0~100日以及240~365日,即處于冬春季以及秋冬季。結合圖1可推測,該時期氣溫較大的波動性會加大機器學習模型的訓練難度,進而導致AE的總體偏大。

圖2 三種模型針對未來1~3 d日平均氣溫預報的絕對誤差(AE)時間序列

綜合上述分析可知,LightGBM和BP-NN機器學習方法在預報準確性,擬合效果(R)以及穩定性(AE)方面均要優于逐步多元線性回歸法。

3 結論和討論

(1)通過對過去1~365 d的日平均氣溫進行遍歷測試,確定將過去連續7 d的日平均氣溫分別作為逐步多元線性回歸、LightGBM以及BP-NN算法的自變量可最準確地預報出未來1~3 d的日平均氣溫,據此構建了短期氣溫預報模型。該最優自變量的確定方法是以結果為導向,其中所表征的科學背景仍有待進一步探索。

(2)從預報準確率(絕對誤差小于2 ℃的天數占比),相關系數和絕對誤差來看,三種模型均能較準確地預報出未來1~3 d的短期日平均氣溫,其中LightGBM最優,BP-NN次之,逐步多元線性回歸最差。以LightGBM為代表的傳統機器學習模型適用于非圖像領域百萬級左右的數據集,而對于雷達回波外推以及空間降尺度等圖像領域, 則要以神經網絡為代表的深度學習方法更為適用。

(3)數據的質量決定了預報效果的上限,而模型只是協助逼近該上限。因此,增加更多的觀測與模式預報資料,通過采用特征工程等方法,將有助于進一步提升算法的預報性能。

猜你喜歡
實測值平均氣溫線性
漸近線性Klein-Gordon-Maxwell系統正解的存在性
立春
±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
線性回歸方程的求解與應用
常用高溫軸承鋼的高溫硬度實測值與計算值的對比分析
市售純牛奶和巴氏殺菌乳營養成分分析
一種基于實測值理論計算的導航臺電磁干擾分析方法
二階線性微分方程的解法
從全球氣候變暖大背景看萊州市30a氣溫變化
1981—2010年拐子湖地區氣溫變化特征及趨勢分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合