?

基于集成學習的沿海低能見度天氣分類預報方法

2024-01-12 11:36陳錦鵬林輝吳雪菲黃奕丹程晶晶莊毅斌
熱帶氣象學報 2023年5期
關鍵詞:能見度集上樣本

陳錦鵬,林輝,吳雪菲,黃奕丹,程晶晶,莊毅斌

(1.福建省災害天氣重點實驗室,福建 福州 350001;2.數字科學與統計重點實驗室,福建 漳州 363005;3.漳州市氣象局,福建 漳州 363005;4.福建省大氣探測技術保障中心,福建 福州 350001)

1 引 言

氣象能見度作為氣象觀測的基本要素之一,容易受到各種因素的影響。當出現霧、霾、降雨、降雪等天氣現象時,能見度往往轉差;另外邊界層變化、大氣低頻振蕩也能造成能見度下降[1]。沿海低能見度天氣會對交通、運輸和作業等產生不利影響,因此其預報預警技術研究具有重要的實踐意義。

多年統計來看,造成閩南沿海地區低能見度事件的主要原因分別是霾和霧,且上半年的持續時間和發生頻率高于下半年[2]。分析發現,在爆發性濃霧過程中除了由海風和地面長波輻射提供的主要冷卻條件外,還存在來自平流和蒸發的充足水汽條件以及貼地強逆溫[3]。近年來,關于低能見度天氣客觀預報的研究工作日漸增多。王楠等[4]以相關性為依據篩選預報因子,分別采用基于Poly、RBF 核函數的支持向量機(SVM)方法建立能見度預報模型,發現在檢驗樣本中預報準確樣本的誤差整體較小,而在漏報樣本中有能見度越低誤差越大的特點。謝超等[5]通過訓練神經網絡模型來獲得能見度集合預報,試驗顯示模型預報的誤差與TS 評分均優于模式預報。黃輝軍等[6]嘗試將近地層溫差因子作為GRAPES 模式的預報變量因子以改進海霧預報,引入后海霧區域預報的準確率、TS 和HSS 評分都有明顯提高。黃健等[7]在海霧歷史觀測資料和再分析資料的基礎上,采用分類與回歸樹(CART)方法對海霧發生發展的海洋氣象條件進行分類分析,建立了決策樹預報模型,對廣東沿岸海霧的預報準確率可達到73%以上。俞涵婷等[8]從統計角度驗證了溫差是大霧形成的重要因素,同時運用決策樹模型進行海霧預報試驗,在測試集數據中成功率為0.8,可用于業務中對海霧的判別。

總體來看,目前對于海霧的預報方法主要包括天氣學方法、統計預報方法和數值預報方法,天氣學方法對預報員的主觀經驗依賴性較高,預報準確率和可靠性較低;單純的統計預報方法缺乏對海霧過程物理規律的描述,多依賴于歷史觀測資料或數值預報資料的質量和數量[9]。而數值預報方法作為氣象預報的主流發展方向,離不開客觀化、自動化的后處理訂正技術。輕量梯度提升機(Light Gradient Boosting Machine,LightGBM)作為目前集成學習代表性算法之一,面對結構化數據時具有比較出色的普適性、準確性和可解釋性,在各大數據挖掘競賽與各個行業領域中的應用相當廣泛。如何將LightGBM 算法更好地應用于低能見度天氣預報預警業務之上,是非常值得探究的問題。在上海區域的能見度預報試驗中,基于WRF 模式的LightGBM 訂正模型在驗證集上的平均絕對誤差相對于原始預報提升比例可達47.2%[10]。但交叉驗證中的數據集來自于同分布隨機采樣,缺乏時間相關性,不足以體現模型在實際業務中面對未知數據的預測能力。

此外,福建漳州地區現有的沿岸、島嶼和浮標自動站過于稀疏,探測范圍也極為有限,過少的觀測樣本不利于模型訓練與測試。本試驗嘗試引入遠距離無線電(Long Range Radio,LoRa)探測數據,與自動站觀測數據進行融合以擴充數據集。LoRa 是一種窄帶物聯網通信技術,其信號衰減對天氣要素變化敏感,尤其是與相對濕度、風速存在一定的相關性。目前漳州沿海及海上地區已部署LoRa 觀測組網,通過能見度反演算法得到高時空分辨率的LoRa 海霧探測數據[11],可在一定程度上彌補傳統觀測手段的不足。

本文提出的低能見度天氣分類預報技術本質是應用集成學習對數值預報進行統計訂正,融合了數值模式擅長環流形勢預報與集成學習擅長統計規律挖掘的優勢來進一步推導低能見度天氣的可能性。試驗中應用2020年數據集進行建模和訓練,以2021年數據集進行測試,充分考察模型的擬合能力和泛化能力,驗證了該模型具有優于模式原始預報甚至傳統統計方法的預測能力。同時也探究了試驗過程中遇到的樣本不均衡、特征構造和模型融合等問題,為集成學習在能見度預報方面的應用和數值模式訂正技術的發展提供參考。

2 資 料

本文采 用2020 年3 月—2021 年7 月 漳州地區沿海與島嶼自動站的逐小時能見度觀測數據作為實況資料,共包含10 個站點(圖1)。由于沿海自動站分布過于稀疏,難以精細體現能見度要素的空間分布,故將相應的LoRa 探測數據與其進行融合作為補充(詳見3.3.1 節),最后得到網格化的能見度實況資料。

圖1 漳州地區沿海與島嶼自動站(紅色)以及LoRa探測格點(黑色)分布

另外,采用EC-thin 歷史數據作為預報資料。其時間分辨率為3 h,空間分辨率為0.125 °×0.125 °。預先根據業務經驗挑選出與能見度關聯較強的預報因子作為模型的待選特征,具體包括2 m 露點(d2)、2 m 相對濕度(rh2)、2 m 氣溫(T2)、10 m 風場U分量(u10)、10 m 風場V分量(v10)、海平面氣壓(msl)、925 hPa比濕(q925)和1 000 hPa比濕(q1000)、925 hPa 氣溫(T925)和1 000 hPa 氣溫(T1000)、低云量(LCC)、總云量(TCC)等共計12 類預報產品。這些變量均來自于模式的直接輸出產品,基本反映了邊界層內的氣象環境條件。

從逐小時、逐格點的角度制作樣本數據集:對于每個實況融合后的格點而言,在預報資料中選取以其為中心的16 點平均值(覆蓋邊長為0.375 °的矩形區域)作為該點的特征變量。建模的目的在于挖掘特征變量與格點水平能見度級別之間的映射關系。定義水平能見度小于500 m 的樣本為正類樣本,反之則為負類樣本。觀察樣本分布(表1)可發現正負類樣本數量懸殊,如2020 年正負比率不足0.6%,屬于極小概率事件,嚴重的樣本不均衡問題會導致模型訓練出現顯著偏離,試驗中需加以解決。分別將2020 年和2021 年數據集作為訓練集和測試集,避免由于打亂時間順序而出現數據信息泄露,充分考察模型面對完全陌生的“未來”數據的預測能力。

表1 2020年與2021年正負類樣本分布

3 研究方法

3.1 低能見度天氣的日變化特征

漳州沿海地區低能見度天氣具有鮮明的日變化特征。從2020年不同程度的低能見度天氣頻次統計可以發現,無論是能見度在3 000 m以下或是500 m 以下的天氣均以下半夜最多見(圖2)。具體來看,前者在05 時(北京時間,下同)頻次最高,06時以后頻次急劇下降,在00—12 時之間呈現單峰型分布;而后者在04 時頻次最高,在08 時頻次次高,在下半夜至上午時段亦呈現單峰型分布,且04—08時發生頻次顯著高于其他時間。這表明了夜間的冷卻條件極為重要,也反映了引入日變化的時間參數作為模型的特征變量是很有意義的。

圖2 3 000 m以下(藍色柱狀)和500 m(紅色折線)以下的低能見度時刻發生頻次的日變化

3.2 LoRa探測數據的可用性

在使用LoRa 探測數據之前,需要初步評估LoRa 探測數據的準確性和可用性。以上述10 個沿海和島嶼自動站的能見度觀測資料為參照標準,對空間分辨率為1 km 的網格化的LoRa 探測數據進行檢驗??紤]到所選自動站的能見度觀測儀可能存在偏差以及實際業務中更加關注能見度在3 000 m以下的天氣,故只篩選出同一小時內至少存在相鄰兩個自動站能見度小于3 000 m 的時次樣本進行檢驗。

根據能見度要素在空間分布上具有一定的連續性,采用鄰域檢驗法進行檢驗,即假設自動站周邊一定范圍的區域內能見度等級與該站點一致。隨著鄰域半徑增大,參與檢驗的格點數也越多;但當領域半徑過大時,上述假設可能會失效。以能見度分類閾值為500 m、鄰域半徑為2 000 m 的檢驗為例,參與檢驗站點的平均結果如表2 所示,其TS 評分和準確率分別接近60%和94%以上,漏報率略多于空報率,但均未超過1/3,表明了具有較理想的可用性。

表2 LoRa探測數據的檢驗指標(能見度分類閾值為1 000 m、鄰域半徑為2 000 m)

3.3 數據預處理

3.3.1 實況資料合成

單純使用自動站的能見度觀測資料在范圍和數量上都會受到較大的限制,不利于模型的訓練和測試。在LoRa 探測數據可用性較好的基礎上,將相距3 km 內的自動站觀測數據與LoRa 探測數據進行指數權重合成以獲得網格化的實況數據。該合成方式的優點在于權重隨著距離快速減少,又始終保持正值[12]。具體公式如下:

對于某一格點而言,V為融合能見度,Vd為LoRa 探測能見度,Vo為自動站能見度,R為該格點與最鄰近站點的距離,即距離自動站3 km 以外的格點值只取LoRa 探測值,反之則根據與自動站的距離進行指數權重合成,離自動站越遠則LoRa 探測值的權重越大。

3.3.2 新特征構造

模型的輸入特征好壞在很大程度上決定了模型的預測能力上限。雖然來自于模式直接輸出產品的特征變量足以描述邊界層內大氣環境條件,但是與低能見度天氣過程之間的映射關系還不夠顯著,諸如水汽、冷卻、弱風和穩定層結等氣象條件可以通過構造新的特征變量以得到更好地描述。

在水汽和弱風條件方面,分別增加2 m 溫度露點差(T2-d2)和10 m 全風速(uv10)作為新的特征變量。此外,增加925 hPa 與2 m 溫差(T2-T925)、925 hPa 與1 000 hPa 溫差(T1000-T925)、1 000 hPa與2 m 溫差(T2-T1000)等三個特征變量。由于低能見度天氣具有日變化規律,還可以引入樣本所屬的時刻作為時間參數特征。將原先的特征稱為初始特征,加入6個新特征后稱為全特征。

3.4 建模方法

梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的基本原理是不斷通過擬合殘差(真實值與預測值的偏差)來迭代學習新的決策樹,再將所有決策樹的單獨預測進行相加即得最終結果,因此可以由如下公式表示:

其中X代表輸入特征,F代表決策樹,Θn為決策樹的超參數(如最大深度、葉子節點數等),N為決策樹的個數。LightGBM 每次選擇能夠帶來最大信息增益的節點進行切分,即保證切分前后的信息熵差值為最大。特征種類越多、樣本數據量越大時,LightGBM 越有計算成本上的優勢,這主要由于LightGBM 采用的兩種創新技術:基于梯度的單側采樣(Gradient-based One-Side Sampling)和互斥特征捆綁(Exclusive Feature Bundling)。前者的目的是縮減用于計算信息增益的樣本數量,后者則能夠減少用于參與分裂點篩選計算的特征數量[13]。在幾乎相同的精度上,LightGBM 可以使傳統GBDT的訓練過程加速20倍以上[14]。

邏輯回歸(Logistic Regression,LR)算法也是一種用于解決二分類問題的算法。該算法基于數據服從伯努利分布的假設,在給定條件概率分布的基礎上運用極大似然估計求解最優參數。具體是使用Sigmoid 函數將線性回歸的預測值映射為(0, 1)上的概率值,最終公式如下:

其中θ為LR 模型超參數,可用梯度下降法尋找最優解。LR 算法的運行效率高、可解釋性強,適合作為基準算法進行對比。

本研究依靠LightGBM 模型來挖掘同一時刻內某點能見度V與該點附近的氣象條件X之間的映射關系,即認為存在V=f(X)。此外,LightGBM能夠從信息熵和信息增益[15]的角度來考察各類特征重要性,后續將據此對特征變量的貢獻大小進行排序。

3.5 評估指標

LightGBM 模型的輸出是預測概率值,在應用命中率、TS 評分等傳統分類指標時需要事先確定分類概率閾值,不同的閾值所對應的指標也有所不同,如此不利于全面跟蹤和評估模型性能的變化。本試驗引入受試者工作特征曲線下面積(Area Under ROC Curve,AUC)評分[16]對模型表現進行跟蹤檢驗,受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線)是指遍歷模型所有分類概率閾值后,在以偽陽性率(False Positive Rate,FPR)為橫坐標、以真陽性率(True Positive Rate,TPR)為縱坐標的坐標系中由一系列不同閾值的點組成的曲線,其中FPR、TPR計算公式如下:

NA 為預報和實況均出現低能見度天氣的次數,NB 為漏報次數,NC 為空報次數,ND 為預報和實況均未出現低能見度的次數。AUC 為0.5 時說明預測完全是隨機的;AUC在0.5以上才能說明模型具有正向預測價值;AUC 越接近1,則模型預測效果越趨于完美[17]。

3.6 試驗設計

根據時空對應關系將實況融合資料與模式預報資料制作成數據集??臻g上,以預測點為中心、邊長為4×4 格點的矩形區域內物理量平均值作為特征變量;時間上,選取起報時間為20 時、預報時效包含15~36 h 的預報產品進行處理。由于2021年部分時段資料缺失,總共整理出約18萬個樣本。

為了盡量減小樣本極端不均衡對訓練過程帶來的影響,試驗中運用自助聚合(Bootstrap Aggregating,Bagging)技術進行采樣和建模:在負樣本遠多于正樣本的數據集中,對大量負樣本進行隨機采樣50 次,每次可得到與正樣本數量接近的負樣本以組成子訓練集,即每一份子訓練集中的正樣本相同而負樣本不同。在50份子訓練集的基礎上可訓練出50 個不同的基模型,將每個基模型的預測概率進行平均處理,則為融合模型。預先統一設定基模型的超參數,其中關鍵超參數如最大樹深度為7、葉子節點數為2、學習率為0.06。

試驗共劃分為四組:(a) 基于初始特征的基模型預測(RAW-BASE);(b) 基于全特征的基模型預測(ALL-BASE);(c) 基于初始特征的融合模型預測(RAW-MIX);(d) 基于全特征的融合模型預測(ALL-MIX)。此外,以基于全特征的LR方法作為參照試驗,稱為ALL-LR,在該方法中設定根據樣本數量來調整樣本權重以緩解數據不均衡的影響。根據AUC 評分對各類方案的結果進行評估和對比。

4 對比與分析

4.1 特征重要性分析

LightGBM 建模方法可通過計算每類特征在分割點產生的信息增益總和來對特征重要性進行排序,這有助于深入了解低能見度天氣發生發展的氣象環境條件。如圖3 所示,d2的重要性高達3 000以上,遠遠超過其他特征,這表明了近洋面高度的水汽絕對含量對低能見度天氣過程非常關鍵。其余特征重要性之間的差異相對較小,第二為T2-T1000,包括T2-T925也排行第六,可見近地層溫差的作用亦不可忽視。往后從大到小分別為v10、u10、T925、T2-T925、msl、q1000等,主要與弱風條件有關。同時注意到,uv10和T1000參考意義并不是很大。

圖3 基于LightGBM的預報模型輸入特征重要性排序

4.2 不同方案在訓練集和測試集上的對比

分別對五種建模方案進行訓練。其中四種基于LightGBM 的方案中均包含50 個基模型,每個基模型迭代訓練1 200 次。RAW-BASE 和ALLBASE方案是對逐個基模型進行檢驗,故存在虛線和陰影區以表示其AUC 評分的平均值和95%置信區間。而RAW-MIX和ALL-MIX方案則是對融合模型的概率進行檢驗。

在訓練集上,主要對比RAW-BASE、ALLBASE 和LR 方案的差異。如圖4 所示,在經過30次迭代訓練后,基于LightGBM 的兩種方案就表現出比LR 更高的擬合精度,最終AUC 評分均達到了0.9 以上。RAW-BASE 和ALL-BASE 方案的訓練曲線比較相似,開始時AUC 評分的提升率較大,在30~40 代之間后者逐漸與前者拉開差距,中后期提升率逐漸減小,AUC評分處于較高水平,模型存在過擬合的風險,需進一步考察其在測試集上的表現。這表明了引入新特征能夠讓模型更快更好地學習到低能見度天氣的發生規律。

圖4 模型在訓練集上的AUC評分對比

在測試集上,EC-thin 模式對于樣本能見度的原始預報均在3 000 m以上,難以捕捉低能見度天氣發生的征兆。從圖5 可以看到,經過LR 方法訂正后提升微弱,AUC 評分仍不足0.71,參考性較差。整體來看,基于LightGBM 的建模方案訂正效果顯著優于LR 方法,前者AUC 評分均能超過0.85,在800 次迭代訓練后基本趨于收斂,穩定性較好,反映了基于LightGBM 的建模方法具有優秀的非線性擬合能力。

圖5 模型在測試集上的AUC評分對比

在四組基于LightGBM 的訂正方案中,模型擬合穩定后的AUC 評分由高到低分別為:ALLMIX、ALL-BASE、RAW-MIX、RAW-BASE?;谌卣鞯挠喺桨福ˋLL-MIX 和ALL-BASE)相比于原始特征(RAW-MIX 和RAW-BASE)具備更優越的改善作用,前者在1 000 代之后集中于0.94附近,后者仍分布在0.87 上下。新特征的構造和引入也縮小了基模型的振蕩區間,有效削弱模型隨機性,也使得200 代之前的AUC 評分提升更加迅速和平滑。

模型融合與否也會小幅影響其預測能力。經過平均處理后的融合模型(RAW-MIX 和ALLMIX)表現基本與50 個基模型(RAW-BASE 和ALL-BASE)中的最優者相當,更重要的是融合模型可以解決實際業務中我們難以提前得知哪個基模型為最優的問題。與基模型相對平穩的能力提升不同,融合模型在測試集上的AUC 變化曲線呈現階躍式上升,且在接近1 200代時再次超過基模型,甚至還存在繼續優化的潛力。這些現象說明了融合模型能夠逼近甚至超越最優基模型,既避免了基模型選擇困難,還可以加速模型優化過程,提高模型學習效率,使其更早進入穩定收斂狀態??傊?,對比試驗驗證了LightGBM 模型相對于傳統訂正方法具有更大的潛力,而新特征引入和模型融合的技巧能夠對訂正效果產生正貢獻,尤其是構造合理的新特征對模型的提升幅度更為突出。

4.3 最優建模方案在測試集上的分析

由上述對比可知,最優建模方案為ALL-MIX方案,現對ALL-MIX 模型和LR 模型作進一步評估。對于第1 200 代的ALL-MIX 模型而言,通過搜索TPR 與FPR 之差的最大值可以確定其最佳概率閾值a為0.999 7 左右,即當模型輸出概率P≥a時判斷為水平能見度低于500 m,反之則在500 m以上。同時計算ALL-MIX 模型和LR 模型的交叉矩陣(其最佳概率閾值約為0.953 6)以做進一步對比(表3 和表4)??梢园l現,兩者的預報準確數和漏報數基本一致,命中率都在98%左右,這是訂正模型對模式原始預報改善作用最突出的方面。與此相反,兩種建模方案的空報數差距很大,LR 模型的空報數約為ALL-MIX 模型的8.5 倍,故前者空報率超過93%,后者則控制在61%左右,表明了融合模型相對于傳統模型的優勢在于顯著降低了空報率。因此,ALL-MIX模型的TS評分可以達到38.71%左右,比LR模型提升了5倍以上。

表3 ALL-MIX方案在測試集上的交叉矩陣

表4 ALL-LR方案在測試集上的交叉矩陣

5 結 論

本文從逐小時逐格點的角度出發,在2020 年3 月—2021 年7 月漳州地區融合實況資料與ECthin模式歷史預報產品的基礎上制作數據集,將能見度是否低于500 m 作為分類預測目標,應用集成學習中的LightGBM 算法建立了分類預報訂正模型,利用Bagging 技術和AUC 評分指標在一定程度上克服樣本極端不均衡帶來的影響,并根據新特征構造和模型融合劃分為四種訓練方案進行試驗,同時設定基于LR(邏輯回歸)方法的預測模型作為基準試驗。經過對比分析得到如下結論。

(1)所有訂正方案對于EC-thin模式原始預報能力均有不同程度的提升。在所有表征氣象環境條件的特征中,d2在建模過程中產生的信息增益總和最大,即d2對判斷低能見度天氣發生發展最為重要,T2-T1000的重要性次之。

(2)基于LightGBM 方法的訂正模型總體效果優于LR 模型。兩者的命中率基本接近,但前者通過削減空報率而進一步優化了預測能力。其中ALL-MIX(基于全特征的融合模型)建模方案在測試集上的AUC 評分相比于LR 模型增加了0.387 7,TS 評分也提升了7 倍以上。表明了LightGBM 模型在搜尋非線性復雜規律方面具有比較優秀的擬合能力和泛化能力。

(3)合理構造新特征以及對基模型進行平均融合有助于優化訂正模型。在四種基于LightGBM 的訓練方案中,ALL-MIX 方案可以使模型在測試集上取得最高的AUC 評分。對比試驗表明了合理構造新特征對模型的提升幅度更為突出,而模型融合則能夠甚至超越最優基模型,既避免了基模型選擇困難,也保持了模型的穩定性。

不可忽視的是,本文提出的分類預報模型仍然存在空報率較高、分類過于簡單等不足,下一步將通過調整超參數和增加分類試驗等方法繼續優化和改進。

猜你喜歡
能見度集上樣本
用樣本估計總體復習點撥
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
2005—2017年白云機場能見度變化特征及其與影響因子關系研究
推動醫改的“直銷樣本”
復扇形指標集上的分布混沌
隨機微分方程的樣本Lyapunov二次型估計
低能見度下高速公路主動誘導技術的應用
前向散射能見度儀的常見異?,F象處理及日常維護
村企共贏的樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合