?

基于機器學習的格點氣溫預報訂正方法*

2024-02-06 02:22方鴻斌王珊珊王曉玲譚江紅魯禮炳
氣象 2024年1期
關鍵詞:格點實況氣溫

方鴻斌 王珊珊 王曉玲 譚江紅 魯禮炳

1 武漢中心氣象臺,武漢 430074 2 湖北省襄陽市氣象局,襄陽 441022 3 湖北省荊州市氣象局,荊州 434022

提 要:使用2017年9月至2021年3月國家級業務化運行的智能網格實況分析產品和歐洲中期天氣預報中心全球模式(EC)產品,根據湖北省的地理分布特征構建6個分區,采用基于LightGBM機器學習算法建立的氣溫預報方法,生成湖北省0.05°×0.05°格點氣溫預報產品。利用2021年4—9月的預報產品和格點實況資料進行檢驗,結果表明:基于機器學習的氣溫預報方法(MLT)取得了較好的預報效果,其在0~72 h時效內優于中央氣象臺下發的氣溫精細化指導預報(SCMOC)和EC產品;MLT在山區的誤差較平原大,但山區的訂正幅度大于平原,日最高氣溫的訂正幅度大于日最低氣溫的訂正幅度;4—9月MLT、SCMOC、EC產品的平均絕對誤差(MAE)日變化都呈現了白天偏高、夜間偏低、午后凸起的單峰特征,MLT的MAE值較SCMOC和EC產品的更低,并且在轉折性天氣中仍具有優勢;站點檢驗與格點檢驗結論一致,基于格點建模的氣溫預報產品對站點預報同樣得到了訂正。機器學習在格點氣溫的模式訂正方面可以作為一個行之有效的手段。

引 言

氣溫的高分辨率格點預報是精細化預報業務中的一項重要工作,提高格點氣溫預報的準確率是氣象預報業務智能化、客觀化的發展要求,是氣象工作“觀測精密、預報精準、服務精細”目標的內在要求。近年來,在國內外大力發展無縫隙精細化預報的背景下,我國的格點實況分析場產品也得到了長足的發展(師春香等,2019;俞劍蔚等,2019)。2017年7月國家級格點實況分析產品(CLDAS-V2.0),正式投入業務化運行。與此同時,機器學習在氣象預報領域的應用也正在蓬勃發展,國際上已經有越來越多的機器學習方法應用在天氣預報領域中(Haupt et al,2021; Kashinath et al,2021)。歐洲中期天氣預報中心在2021年初發布的未來十年發展規劃(Machine learning at ECMWF:A roadmap for the next 10-years,https:∥www.ecmwf.int/en/elibrary/81207-machine-learning-ecmwf-roadmap-next-10-years)中闡明了未來機器學習技術在其數值天氣預報流程中的重要性。我國學者在氣象領域應用機器學習技術上也進行了諸多探討和實踐(許小峰,2018;李揚等,2021;周康輝等,2021a,楊絢等,2022)。通過預報員主觀手動訂正千米級分辨率的氣溫網格預報難以做到準確高效,而利用高分辨率格點實況產品,通過機器學習算法訂正精細化的格點預報產品是未來的一大趨勢。

國內常見的氣溫模式后處理訂正方法有模式輸出統計(MOS)、卡爾曼濾波、人工神經網絡、站點訂正值向格點傳遞法、最優集合預報訂正法、滑動平均和空間誤差綜合訂正技術、機器學習訂正方法等(潘留杰等,2017;雷彥森等,2018;郝翠等,2019;薛諶彬等,2019;門曉磊等,2019;任萍等,2020;陳昱文等,2020)。以上方法基本是針對站點的預報訂正,訂正后的2 m氣溫有不同程度的改進,但優勢不夠突出?;诒镜貥I務基礎和天氣特點,也有多種后處理方法。如,吳啟樹等(2017)發展了最優TS評分訂正算法,王建鵬等(2018)研發了動態交叉最優要素預報方法,盛春巖等(2020)選擇最優的數值預報產品,分析不同客觀釋用方法預報效果,研究適合的最優集成預報方法,生成氣溫智能網格最優集成預報產品。這些方法考慮了本地地理、氣候等特征以及模式偏差,但仍然沒能很好地解決實況分辨率粗的問題,并且方法復雜不易推廣,沒能充分利用數值模式環流預報較為準確的優勢,中高層物理量對氣溫的影響考慮不足。而針對氣溫預報,除了需要考慮天氣因子的影響外,地理特征、日變化的特征以及模式固有的偏差都是非常重要的。因此本文提出,結合地理特征、日變化特征、融合多種影響氣溫預報的物理因子及模式偏差,基于LightGBM(light gradient boosting machine)算法建立湖北省格點氣溫預報方法,將該方法生成的溫度預報產品命名為MLT(matching learning temperature)。

1 數據資料

1.1 數 據

本文資料采用的是2017年9月至2021年9月28.9°~33.4°N、108.25°~116.25°E范圍的 EC模式數據、CLDAS-V2.0逐小時格點氣溫實況數據及中央氣象臺下發的氣溫格點預報產品(SCMOC)。EC模式數據時間分辨率為3 h,空間分辨率為0.125°×0.125°;格點氣溫實況的時間分辨率為1 h,空間分辨率為0.05°×0.05°(約5 km);SCMOC時間分辨率為1 h,空間分辨率為0.05°×0.05°。

1.2 數據處理

本文采用線性插值方法分別在時間、空間上做了插值。提取逐小時格點實況數據與數值預報要素,并進行時空對齊,去掉缺失、存在異常的樣本,形成機器學習樣本數據庫。為了使建模的特征因子更接近真實值,選取08時和20時起報的0~11 h時效EC模式預報產品作為樣本。本文采用的EC模式沒有24 h高溫、低溫產品,所以在檢驗時,采用的是由逐3 h高溫、低溫統計出來的24 h高溫、低溫?;跉夂虿町惡偷匦翁卣?對湖北省進行地理分區,6個分區示意圖如圖1。28.9°~33.4°N、108.25°~116.25°E范圍內6個矩形塊分別為鄂西南、鄂中南(江漢平原南部)、鄂東南、鄂西北、鄂中北(江漢平原北部)、鄂東北。本文對數據進行裁剪,應用機器學習算法,針對6個分區分別建立預報模型。

圖1 湖北省6個分區示意圖

2 方 法

2.1 機器學習算法

機器學習中,常見的算法是決策樹類(樹模型)。該算法具有可解釋性較強,在天氣預報中的連續性變量(氣溫、濕度、氣壓)預報效果出色,不亞于深度學習,具有訓練更高效的特點(楊璐等,2021)。近年在樹模型算法中梯度提升算法 (gradient boosting decision tree,GBDT)較為流行,例如XGBoost(extreme gradient boosting)算法、LightGBM算法。LightGBM是一種基于梯度提升樹的機器學習方法,是2016年由微軟公司開發的一種比較快速的梯度提升框架,較XGBoost有明顯優勢。LightGBM是對GBDT的高效實現,原理上它和GBDT及XGBoost類似,都采用損失函數的負梯度作為當前決策樹的殘差近似值,去擬合新的決策樹。XGBoost的不足在于,計算信息增益需要掃描所有樣本,從而找到最優劃分點;在面對大量數據或者特征維度很高時,其效率和擴展性很難使人滿意??紤]到本文采用的數據體量較大,訓練樣本較多,而LightGBM利用了單邊梯度采樣算法和互斥特征綁定算法,能夠很好地解決上述問題(Ke et al,2017),因此本文選擇LightGBM機器學習算法。

2.2 特征工程

機器學習模型的好壞需要建立在對天氣物理規律清晰、明確的認識基礎之上(周康輝等,2021b)。正確的特征選擇可以降低機器學習任務的難度,減少計算和存儲開銷,同時優化學習模型(孫全德等,2019;Pan et al,2019,Wang et al,2021)。因此,本文根據預報員經驗初選出能夠反映氣團冷暖、日照輻射、日變化等56種特征因子,通過機器學習(統計分析)特征重要性排序,綜合考慮硬件環境、業務運行耗時及檢驗評估結果,進一步篩選38個特征因子形成最優因子集進行建模。

構建模型使用的要素主要有預報場的各層風場、濕度場、溫度場、海平面氣壓場以及平均位勢高度(用500 hPa場代替)。本文選取的風場數據層次包括10 m、925 hPa、850 hPa、700 hPa,一定程度上體現了影響某地的天氣系統。相對濕度,用于體現當地上空的天空狀況以衡量輻射因子。氣溫方面,選取了1000~850 hPa氣溫,用以表征大氣的基本冷暖狀態。

相似的天氣特征,由于格點所處位置的不同,格點實況值往往有較大差異。因此構建特征時,分別把6個分區的格點進行編碼。每個分區有約2840個格點,每個分區用從0開始的正整數,逐一將格點編碼,并在訓練時把格點編碼作為類別特征。經機器學習特征重要性排序,格點編碼排名第一,說明格點的位置是氣溫客觀預報應該考慮的一個重要特征。此外,氣溫存在明顯的日變化特征,因此在逐小時的樣本中將小時作為特征之一,并且把小時作為類別變量。預報員做主觀預報時往往會考慮到模式近期預報的偏差,所以在24 h內的預報建模當中,使用過去5 d對應時刻的氣溫預報偏差作為特征之一進行建模。本文建模及預報流程如圖2。

圖2 機器學習氣溫預測流程圖

2.3 訓練方法

LightGBM將連續特征離散化成直方圖特征,減少了數據的存儲空間和計算復雜度;訓練過程中通過高效的垂直并行化計算,提高了訓練速度;通過設置類別變量參數(categorical_feature),選擇類別變量,基于類別特征值的最優分割,對經緯度編碼和小時特征設置為類別變量,較one-hot編碼更方便、高效,可以有效反映時空特征。

在硬件環境及時間允許范圍內進行個別關鍵參數的網格搜索,尋找最優參數,6個分區建模的關鍵參數保持一致,LightGBM建模關鍵參數的最優值詳見表1。值得說明的是,迭代次數(num_iterations)設置為10 000,同時設置早停(earlystopping_rounds)參數為30,即如果一個驗證集的評估指標在最近30次循環中沒有繼續改善(誤差降低或者準確率提高),訓練將提前停止訓練,而不會進行到第10 000次。6個分區雖然面積相差不大,但是由于迭代循環中,平原地區的誤差改進小進而迭代次數相對少,所以耗時短,山區則相反。機器學習訓練調優之后,保存一份含有最優參數的模型,用來進行預報?;跈C器學習的氣溫預報MLT從獲取EC模式數據到未來24 h的產品生成,可以在3 min內完成。

表1 LihgtGBM建模關鍵參數的最優值

2.4 檢驗方法

智能網格檢驗業務相關要求使用平均絕對誤差(MAE)進行氣溫預報性能對比。機器學習一般采用均方根誤差(RMSE)作為損失函數進行回歸建模。分析氣溫預報偏高、偏低問題,通常使用平均誤差(ME);在對比多種產品的站點預報性能時,本文使用氣溫的預報準確率。即本文共使用了4種檢驗方法,分別是ME、MAE、RMSE、氣溫預報準確率。以上檢驗方法均是參照全國智能網格預報業務產品檢驗評估辦法(2021版)。

3 結果分析

3.1 高溫、低溫預報產品誤差的空間分布對比

利用2021年4—9月時間段的格點實況數據進行檢驗,對比24、48、72 h時效MLT、SCMOC、EC預報產品的高溫、低溫預報在6個分區的MAE和RMSE(圖3)。由圖3a、3b可見,MLT低溫MAE在6個分區24~72 h時效預報誤差均在1℃左右,與EC相比,西部山區低溫訂正幅度較大,平原地區訂正幅度略小。MLT低溫在6個分區的RMSE均在1℃左右,與MAE相差不大,由于RMSE對誤差的反映更敏感,也證明了MLT低溫較接近于實況。由圖3c、3d可見,MLT高溫與EC預報產品相比,西部山區高溫訂正幅度較大,平原地區訂正幅度略小。SCMOC高溫24 h預報較EC預報產品有正訂正,隨著時效的延長,訂正幅度降低。MLT高溫在6個分區的RMSE,明顯低于EC和SCMOC預報產品的相應數值,且與MAE相差不大。綜合分析表明,MLT高溫、低溫的預報效果優于SCOMC與EC預報產品,預報誤差較小且較穩定。

圖3 2021年4—9月08時起報的24 h、48 h、72 h時效MLT、SCMOC、EC(a,c)日最低氣溫和(b,d)日最高氣溫預報產品在湖北省6個分區的(a,b)平均絕對誤差和(c,d)均方根誤差

圖4、圖5分別展示了湖北省區域內MLT、SCMOC和EC高溫、低溫預報產品的MAE空間分布對比。EC預報產品高溫較大的MAE除位于鄂西山區外,鄂東北的大別山區和鄂東南的幕府山區也有兩個小中心。從SCMOC和MLT高溫預報產品的訂正效果看,SCMOC在平原地區24 h訂正較好,MAE基本在1.5℃以下,但是鄂西山區和大別山、幕府山一帶訂正效果不明顯。SCMOC在48 h和72 h對山區和平原的訂正效果均不明顯。MLT在山區有明顯的訂正效果,24~48 h西部山區的MAE在2℃以下,72 h的MAE有所增大,但是比EC預報產品低0.4~0.5℃,比SCMOC低0.1~0.3℃。綜上所述,MLT對EC高溫、低溫預報產品有較好的訂正效果,與SCMOC相比,MLT高低溫的偏差也有一定的降低,特別是西部山區降低的幅度更大。

圖4 2021年4—9月08時起報的24 h、48 h和72 h時效MLT、SCMOC、EC日最低氣溫預報產品的平均絕對誤差

圖5 2021年4—9月08時起報的24 h、48 h和72 h時效MLT、SCMOC、EC日最高氣溫預報產品的平均絕對誤差

對比SCMOC和MLT的方法,可以發現SCMOC主要基于CMA-GFS模式為基礎,采用格點化MOS方法(韋青等,2020;趙聲蓉等,2012),其主要思路和MLT的方法是一致的,都是通過選取最優的要素,利用回歸的方法建立氣溫預報方法,但是在回歸方法、要素和建模方案上存在一定的差別。SCMOC產品輸出的是全國的氣溫,相較MLT不夠精細,雖然鄂西北和鄂西南都是山區,但是氣溫變化規律不同,鄂西北升溫和降溫幅度都很大,而鄂西南一般云系多,夜間氣溫降幅小,因此精細的分區有利于找到更準確的地域規律。另外MLT是直接利用格點氣溫實況建模,而SCMOC是先利用MOS建模得到城鎮站點預報結果,再通過插值得到格點預報(金榮花等,2019),即MLT減少了中間環節,更接近于格點實況。

3.2 格點預報產品誤差的日變化特征

對比2021年4—9月08 時起報的SCMOC、EC預報產品24 h逐小時整點氣溫預報的MAE日變化特征(圖6),可以發現24 h時效內三種預報產品的逐小時平均絕對誤差在白天較大,夜間較小;誤差最大出現在7 h、8 h時效,誤差最小出現在23 h時效左右。圖6a、6d分別為鄂西南與鄂西北的氣溫誤差日變化特征,可以看出湖北西部高海拔山地區域逐小時平均絕對誤差較其他地區大,15 時和16時的氣溫誤差最大;平原地區占比較多的地區(圖6b、6c、6e、6f),逐小時MAE較小;三種預報產品在6個分區表現出了一致的誤差日變化特征,即同時段山區誤差較大,同地區每個時段MLT的預報效果都是最好的。20 時起報的產品(圖7)也有類似的這種日變化特征,高溫時段誤差較大。

圖6 2021年4—9月08時起報的24 h時效MLT、SCMOC、EC逐小時整點氣溫預報產品在湖北省6個分區的平均絕對誤差

圖7 2021年4—9月20時起報的24 h時效MLT、SCMOC、EC逐小時整點氣溫預報產品在湖北省6個分區的平均絕對誤差

結合圖6、圖7對不同分區整點氣溫的MAE日變化分析可以看出,SCMOC在平原地區低溫預報誤差較小,但山區誤差仍較大,而MLT低溫在平原和山區都較小。在24 h時效內,EC 對白天的氣溫預報誤差明顯偏大(1~3℃),尤其是中午至下午時段,鄂西山區更為突出(1.5~3.0℃);SCMOC對白天的氣溫有一定的正訂正效果,但對夜間氣溫卻是負效果;MLT對白天、夜間的氣溫都有明顯的訂正效果,尤其是對山區白天的氣溫訂正幅度更大。

3.3 站點氣溫預報誤差的空間分布及日變化特征

以湖北經緯度范圍內的171個站實況作為真值,檢驗MLT、SCMOC在2021年4月1日至9月30日的逐小時氣溫。由圖8可見,SCMOC小時氣溫的MAE和ME明顯高于MLT(圖8a、8b);SCMOC在湖北地區的氣溫預報東部偏高,西部偏低;SCMOC、MLT的準確率分別是77%、84%,MLT較SCMOC提高了7%(圖8e)。站點的空間誤差檢驗表明:SCMOC、MLT在東部平原地區的預報較西部山區更好,同時MLT在西部山區的預報結果比SCMOC更有優勢,該結論與格點檢驗的結論一致。

注:各圓點以相應站點數值為半徑;設置時以批量站點數據的平均值為基準,當某站點數值超出或小于基準時,則以其絕對值為半徑,以凸顯偏差情況。

對比分析逐小時整點氣溫預報的日變化特征(圖9)。EC、SCMOC和MLT的準確率都存在單低谷的日變化特征,即在14—17時出現準確率低谷值。上述時段大致為汛期最高溫的出現時間,氣溫起伏較大,導致預報準確率較低。MLT在站點逐小時整點預報中每一個觀測時間預報準確率都高于SCMOC,這與格點的平均絕對誤差日變化結論保持一致。形成上述檢驗結果的原因可能是:汛期白天氣溫變化幅度較大,高溫出現時段三種產品的預報誤差較大,所以在14—17時出現準確率低谷值;而MLT建模時是逐1 h作為一個樣本,以小時為單位將時間作為類別變量建模,可以有效學習到氣溫日變化。

圖9 2021年4—9月湖北省各站點整點氣溫預報準確率

3.4 轉折天氣個例檢驗

該算法目前已經在業務中實時運行,本文雖然沒有將常規天氣和轉折天氣分開建模,但是由于模型在訓練的過程中充分考慮了各層的濕度,可以理解為考慮了云的情況,所以該產品在轉折天氣中仍有較好的表現。2021年4—9月的檢驗結果表明,MLT的24 h高溫預報準確率優于EC和SCMOC;同時,其在晴雨轉換天氣中也有較好表現。

以2021年4月7日為例,湖北省自西向東出現了降雨,SCMOC的高溫預報比實況偏高,準確率僅為56.7%,MLT的準確率達到96.1%。圖10a、10b分別為MLT和SCMOC的高溫預報MAE,SCMOC為2.09℃,MLT則為0.69℃,即MLT比SCMOC的MAE降低了1.40℃,預報結果更接近實況。2021年4月12日過程,是一次雨轉晴的過程,SCMOC的高溫預報比實況偏低,準確率為52.3%,MAE為2.19℃(圖10d),MLT的高溫預報也偏低,但是偏低的幅度要小于SCMOC,MAE為0.95℃(圖10c),即MLT比SCMOC的MAE降低了1.24℃,準確率也達到89.2%。

圖10 2021年4月(a,b)6日20時,(c,d)11日20時起報的24 h時效(a,c)MLT和(b,d)SCMOC格點日最高氣溫平均絕對誤差

4 結論與討論

本文建立了一種基于機器學習的氣溫預報方法(MLT),應用于湖北地區,并與SCMOC和EC模式的預報產品進行了對比檢驗。主要有以下結論:

(1)通過格點氣溫實況產品和主客觀篩選的30多個特征量,利用LightGBM方法建立的格點氣溫預報方法,可以提供時間分辨率為1 h、空間分辨率為0.05°×0.05°的氣溫預報產品。在0~72 h時效內MLT的MAE、RMSE較SCMOC與EC的低。

(2)MLT在山區的誤差較平原大,但山區的訂正幅度大于平原,日最高溫的訂正幅度大于日最低溫。RMSE比MAE略大,但誤差分布是一致的。在模型中設置格點編碼和小時特征為類別變量,較好地分別反映了格點氣溫的地理特征和日變化特征。

(3)MLT以站點為真值檢驗,仍然有很好的預報效果。這說明應用機器學習基于格點實況建模的格點氣溫預報產品對站點預報同樣有訂正作用。

(4)2021年4—9月MLT、SCMOC、EC 的MAE日變化都呈現了白天偏高、夜間偏低,午后凸起的單峰特征,MLT不僅在湖北全省累計平均誤差較低,在單時次、單區域的平均誤差較SCMOC、EC仍較低,并且在轉折性天氣中仍具有優勢。檢驗結果表明,MLT在湖北的氣溫預報準確率優于EC和SCMOC。

由此可見,機器學習在格點氣溫的模式訂正方面可以作為一個行之有效的手段。本文運用的機器學習方法對EC氣溫預報模式訂正表現出了較好的效果,對其他模式或其他要素預報訂正仍具有很大的潛力。未來可以在天氣學的物理意義指導下進行更精細的數據處理、特征工程,應可挖掘出更多的可訂正的時空誤差信息,進而達到更好的預報效果。

猜你喜歡
格點實況氣溫
帶有超二次位勢無限格點上的基態行波解
基于FY-3D和FY-4A的氣溫時空融合
一種電離層TEC格點預測模型
深冬氣溫多變 蔬菜管理要隨機應變
鄉村小學的愿望與現實——宜君鄉村教育實況
帶可加噪聲的非自治隨機Boussinesq格點方程的隨機吸引子
天舟一號貨運飛船發射實況掠影
可愛潮咖們的獨門彩妝實況直播
格點和面積
與氣溫成反比的東西
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合