?

基于LightGBM 算法的能見度預測模型

2021-04-20 14:06余東昌趙文芳
計算機應用 2021年4期
關鍵詞:氣象要素北京地區能見度

余東昌,趙文芳*,聶 凱,張 舸

(1.北京城市氣象研究院,北京 100089;2.北京市氣象信息中心,北京 100089;3.北京市氣象探測中心,北京 100176;4.信圖智行(北京)科技有限公司,北京 100022)

0 引言

大氣能見度是反映大氣透明度的一個指標,具體定義為視力正常的人能從背景(天空或地面)中識別出具有一定大小的目標物的最大距離。影響能見度的因子主要有大氣透明度、氣溶膠的化學成分、氣象因子等,當出現降雨、霧、霾、沙塵暴等天氣過程時,大氣透明度較低,因此能見度較差。能見度高低與人們日常生活息息相關,低能見度容易引發交通事故,帶來嚴重的危害和經濟損失。例如,長時間的低能見度天氣不僅會造成大范圍的航班延誤和取消,對航空公司帶來巨大損失,還會對公眾出行造成影響。近年來,京津冀地區霧霾事件頻發,低能見度已經成為衡量霧霾污染程度最重要的指標之一[1-2],能見度的相關研究受到大氣、環境領域乃至社會的廣泛關注,而能見度的預報也成為霾天氣預報以及相關環境氣象預報服務的重要基礎之一。

目前,能見度的預報方法主要包括數值模式預報和統計預報。數值模式預報主要基于空氣動力學理論和物理化學過程,使用各類氣象數據和排放源數據,建立環境氣象數值模式系統來模擬大氣中的污染物、濕度、液態水含量等要素,依據大氣光學理論,計算其對大氣消光的貢獻,診斷預報大氣能見度[3-5]。廣泛應用的模式包括美國環保署開發的通用多尺度空氣質量模型(Community Multi-scale Air Quality model,CMAQ),美國國家大氣研究中心、美國國家海洋和大氣管理局等多家聯合研發的氣象-化學在線完全耦合的區域空氣質量模式(Weather Research and Forecasting(WRF)model coupled with Chemistry,WRF-Chem)[6],中國氣象科學研究院研發的城市空氣污染數值預報系統(City Air Pollution Prediction System,CAPPS)[7]和霧霾數值預報模式CAUCE(CMA Unified Atmospheric Chemistry Environment)[8]等。部分省級氣象部門也通過引進國外WRF-Chem化學模式進行本地化改來提升區域環境業務水平,例如,華北區域氣象中心北基于北京地區快速更新循環同化預報系統、WRF-Chem 模式和優選的能見度參數化方案,建立了華北區域環境氣象數值預報系統(Beijing Regional Environmental Meteorology Prediction System,RMAPS-CHEM)[9]。已有研究表明,這些模式的預報能力隨能見度降低均逐漸下降,存在對于低能見度模擬偏高的問題,在能見度預報業務中需要預報員進行訂正[10-11]。

傳統的統計預報法是通過尋找氣象要素對能見度的影響關系,構建預報量與預報因子之間的預報模型來實現。這種建模都是事先給定模式的因變量與自變量之間的函數關系,不能較好地描述因變量與自變量之間的聯系,也無法預報歷史數據中未出現過的天氣,存在一定局限性。近年來,隨著機器學習的發展,不少學者開始用機器學習算法進行能見度預報的研究,通過選取污染物濃度、溫度、濕度、氣壓、風速、水汽壓等影響因子,使用多元線性回歸、支持向量機、神經網絡等對能見度進行預測[12-17]。然而,除了氣象條件,能見度還受到排放量、氣溶膠化成分等因素的共同影響,應用單一模型和有限的氣象因子建立模型,對預測精度產生了一定影響。

集成學習是目前機器學習領域最熱門的研究方向之一,它的基本思想是把多個學習器通過一定方法進行組合,通過優勢互補以獲得比單一模型更好的擬合表現和更小的誤差,從而達到最終效果的提升。目前主流的集成機器學習方法有:Boosting、Bagging 和Stacking。近年來許多機器學習競賽的冠軍均使用了集成學習,一些主流的互聯網公司,例如騰訊、阿里巴巴都已經將集成學習用在推薦、搜索排序、用戶行為預測、點擊率預測、產品分類等業務中,并取得了良好效果。已有文獻將集成學習應用在PM2.5預測[18-20]、溫度預報訂正[21]、O3濃度預測[22]和估算[23]中并達到了更加準確的預報效果,尚沒有研究將集成學習應用至能見度預報中。因此,本文選擇boosting集成學習方法建立能見度預測模型,有利于降低預報誤差。

1 能見度特征分析

1.1 能見度逐年變化趨勢

本文利用1980—2020 年北京地區國家級地面氣象臺站觀測的大氣水平能見度數據對北京地區大氣能見度的逐年變化趨勢進行分析,這些數據均經過“臺站級—省級—國家級”三級質控。先計算每個站逐年能見度均值,再統計所有站的年平均能見度,結果如圖1所示??梢钥闯?,1980—2020年北京地區年均能見度整體呈下降趨勢:1980—2006 年能見度呈波動式的變化,整體上呈現緩慢下降趨勢;2007—2013 年能見度呈上升趨勢;2014 年能見度最低,城區的能見度均值比北京地區年均值低25.14%;2015—2019 年能見度又呈現上升趨勢,這從側面反映了近幾年空氣污染治理取得了良好效果。余予等[24]分析北京地區能見度變化后指出,海淀和石景山站點觀測的能見度整體呈下降趨勢,這與本文的研究結果較為接近。

圖1 北京地區能見度逐年變化趨勢Fig.1 Annual change trend of visibility in Beijing area

1.2 低能見度的季節變化特征

參考霧霾等級標準劃將能見度分為四個級別:0~2 km、2~5 km、5~10 km 和10 km 以上,分析1980—2020 年北京地區各個季節(春季3~5 月、夏季6~8 月、秋季9~11 月、冬季12 月至來年2 月)不同等級能見度出現的天數和所占百分比,低能見度<2 km在不同季節出現天數的結果如圖2所示。從圖2中可以看出,冬季出現能見度<2 km的天數最多,秋季次之,春季和夏季較少;1980—1999 年期間逐年能見度<2 km 出現的天數不超過15 d,2000—2012 年期能見度<2 km 出現的天數最少,2013—2016 年秋冬季節能見度<2 km 出現的天數明顯增多,2017—2019 年能見度<2 km 出現的天數明顯下降,不超過10 d 能見度在2~5 km 出現的天數隨時間的變化特征如下:1980—1999 年呈波浪形變化,變化幅度不大;2000—2012 年呈現明顯遞減趨勢;2013—2016 年又呈現上升趨勢,最高達到80 d;2017 年之后下降至30 d 左右。能見度在2~5 km 出現的天數比較平均的分布在夏、秋、冬三個季節,春季最少。

圖2 北京地區1980—2019年低能見度季節性的變化趨勢Fig.2 Seasonal change trend of low-visibility in Beijing area from 1980 to 2019

1.3 不同季節能見度日內逐小時變化

對所有氣象站的能見度觀測數據按春、夏、秋、冬季分類,計算各季節0 點到23 點逐小時能見度平均值,結果如圖3所示。

圖3 北京地區不同季節能見度日內逐小時變化趨勢Fig.3 Hour-by-hour change trend in one day of visibility in Beijing are in different seasons

可以看出,春夏秋三季,一日中能見度最低值出現在上午5時至7時,隨著氣溫的升高,相對濕度減小,熱力對流趨于旺盛,能見度逐漸轉好,平均能見度最高值出現在下午15 時至16 時,到了傍晚隨著熱力對流條件減弱,相對濕度增加,能見度又持續變差。冬季,一日中能見度從凌晨開始呈現上升再下降趨勢,最低值出現在上午8 時,隨后又呈現上升趨勢,下午15 時至16 時到達最大,到了傍晚能見度隨時間推移緩慢下降。

1.4 氣象要素與大氣污染對能見度的影響

除了氣象要素,以PM2.5為代表的顆粒物濃度對能見度也有影響,因此進行能見度與常規氣象要素及大氣成分觀測數據的相關性分析,考慮到北京地區最早開始PM2.5觀測是在2002 年,因此選擇使用2002—2019 年北京地區能見度、氣象要素及大氣成分觀測數據進行該項數據分析工作。其中,PM2.5濃度數據來自于PM2.5監測儀。該監測儀利用β 射線作為輻射源,采用恒定流量抽氣,將PM2.5顆粒吸附在β 源和探測器之間的濾紙表面,然后根據抽氣前后探測器對β 射線計數值的改變換算單位體積空氣中PM2.5的濃度。

將能見度劃分四個等級,計算每個等級下能見度和不同氣象要素的平均值,結果如表1 所示。當能見度<2 km 時,平均相對濕度78%,平均PM2.5濃度達到了119 μg/m3;當能見度>10 km 時,平均相對濕度僅有43%,平均PM2.5濃度為28.7 μg/m3;隨著能見度從好變差,氣壓、溫度、風這三個氣象要素的變化并不顯著,相反PM2.5濃度變化最大,相對濕度變化次之。

對能見度的相關性按春夏秋冬四季和年兩個尺度進行分析,結果如表2 所示。從中可看出,與能見度相關性較高的要素主要為PM2.5濃度、相對濕度、風向及風速,其中相對濕度、PM2.5濃度與能見度呈負相關關系,風速、風向與能見度呈正相關關系,這與以往研究結果一致[25]。相對濕度在春季與能見度相關性最高,而冬季最低;風速與能見度的相關性在春季表現最弱,夏季最強;風向與能見度相關性在冬季最強,春季最低;SO2濃度是北京地區供暖期間最主要的大氣污染物之一,在冬季和夏季與能見度相關性較高;PM2.5濃度與能見度在四季都保持著較高的相關性;由此可見,不同氣象要素對北京地區能見度的影響存在明顯的季節性差異。

表1 2009—2019年能見度及氣象要素的年平均值Tab.1 Annual mean values of visibility and meteorological factors from 2009 to 2019

表2 2009—2019年北京地區季、年平均能見度與各類要素間的相關系數Tab.2 Correlation coefficients between seasonal/annual average visibility with meteorological factors from 2009 to 2019

2 本文方法和模型

本文采用隨機森林方法選擇特征向量,使用LightGBM 建立能見度預測模型的方法。使用基于北京市空氣質量歷史數據集、氣象和天氣預報數據集構建的訓練數據集開展模型訓練。以過去24 h 的氣象數據、能見度數據、PM2.5濃度測數據、當前時刻的氣象要素實況數據和氣象要素物理量數據等作為模型的輸入,通過優化參數得到最佳模型并進行預測。

2.1 梯度提升決策樹算法及LightGBM原理

梯度提決策升樹(Gradient Boosting Decision Tree,GBDT)是一種基于迭代所構造的決策樹算法,既可以做回歸也可以做分類,它以分類回歸樹(Classification And Regression Trees,CART)模型作為弱學習器,將新學習器建立在之前學習器損失函數梯度下降的方向,通過不斷迭代來訓練模型。迭代過程中,每一輪預測值和實際值有殘差,下一輪根據殘差再進行預測,最后將所有預測相加作為最終結論。因此,GBDT 可以表示為決策樹的加法模型,如式(1)所示:

其中:T(x;θm)表示決策樹;θm為決策樹參數;M為樹的個數。根據向前分步算法,第m步的模型可以表示為式(2):

設定yi為第i個樣本的真實值,fm(xi)為第i個樣本的預測值,取損失函數為平方損失,那么損失函數可以表示為式(3):

根據式(4)極小化損失函數得到參數θm:

通過多次迭代,更新回歸樹可以得到最終模型。

LightGBM 是微軟基于GBDT 框架提出的改進模型,使用基于直方圖的分割算法取代了傳統的預排序遍歷算法,不僅在訓練速度和空間效率上均優于GBDT,還能有效防止過擬合,更加適用于訓練海量高維數據。

2.2 數據來源及預處理

本文實驗數據來源于北京地區2015—2018 年逐小時的氣象觀測數據、空氣質量觀測數據以及氣象要素格點預報數據。氣象觀測數據和空氣質量觀測數據來自于北京市氣象局國家級地面觀測站,包括逐小時氣壓、氣溫、相對濕度、降水量、風向、風速、PM2.5濃度、SO2濃度;氣象要素格點預報數據來源于北京市氣象局數值模式系統,主要包括不同高度層(1 000,975,925,850,700,500 hPa)的溫度預報、相對濕度預報、風速風向預報等。氣象要素格點預報數據完整性較好,觀測數據大約有5.7%的缺失。

對于缺失的觀測數據,進行缺失時長統計。缺失時長是指以小時為單位,將從最近一次觀測到有效值,到當前時刻所經過的時間跨度。所有缺失數據里,87.6%數據缺失時長時長為不超過2 h,10.4%數據缺失時長為3~12 h,1.72%數據缺失時長為12~2 h,0.28%數據缺失時長為24 h 以上??紤]到不同季節中的小時平均能見度濃度變化存在較大差異,本文根據缺失時長設計了三種不同的缺失值處理方法。對于缺失時長≤2 h的,用上一時次和下一時次觀測數據的平均值替代;對于2 h<缺失時長≤12 h 的,用最近的有效數據替代缺失值;對于12 h<缺失時長≤24 h 的,用過去24 h 的平均值替代;缺失時長超過24 h 的,用相同時間段的所有站的能見度均值和最近有效值作加權和替代缺失值。最近有效值和均值的結合,既考慮了長期穩定值又考慮了能見度突變狀況,比單一用均值替代更接近能見度實際變化情況。

2.3 特征向量選擇

數值模式系統中輸出的氣象要素格點預報多達幾十種,若所有格點預報全部輸入能見度預測模型進行訓練,會使模型結構過于復雜,并產生過擬合現象,甚至導致模型泛化能力不足,因此,需要進行篩選。

隨機森林是一種分類和回歸技術,實現簡單,計算開銷小,不僅適用于非線性數據建模,還適用于對變量進行重要性分析,已有很多學者將隨機森林方法用于特征選擇,在衛星遙感數據反演、空氣質量預測、林地動態預測、生態學預測等應用中取得了良好效果。本文采用隨機森林法,從觀測數據和氣象要素格點預報數據中,選取對北京地區能見度有重要影響的觀測要素或預報要素作為特征向量。圖4 顯示了不同氣象要素及其重要性系數分布情況,排在前5 的分別是PM2.5濃度、相對濕度、海平面氣壓、850 hPa 和500 hPa 兩個高度層的溫度預報,按照重要性系數從高到低選取12 個氣象要素作為能見度預測模型的特征向量。

圖4 不同特征向量的重要性系數Fig.4 Importance coefficient of different feature vectors

2.4 逐小時能見度預測模型

能見度預報是一個典型的時序預測問題,不僅相鄰時刻之間的能見度數值具有較強的相關性,而且各氣象要素前幾個時刻的變化速率和幅度也對當前時刻的能見度有重要影響,因此,選擇當前小時氣象觀測數據和PM2.5濃度數據、過去24 h 能見度、過去24 h 的觀測數據、當前小時氣象要素格點預報數據作為模型的輸入量,將下1 h能見度預測數據作為模型的輸出量,進行模型訓練。

對于觀測數據,根據缺失時長選擇不同的處理方法進行缺失值替換;對于預報數據,根據觀測站點的經緯度信息,通過雙線性插值法將氣象要素格點預報數據插值到觀測站點,即可得到觀測站點的氣象要素預報數據,從而生成關于觀測站點的逐小時原始數據集,然后使用隨機森林算法進行特征提取形成特征向量集合。根據模型對輸入量要求,對向量集合進行轉換,形成每個站點都包含當前小時和過去24 h 特征量的樣本集合?;跇颖炯蠎肔ightGBM 建立預測模型,利用網絡搜索法優化模型參數,對未來1 h能見度進行預報。

3 實驗與結果分析

3.1 實驗環境及數據

數據預處理后獲得114 104個逐小時的連續樣本,時間跨度為2015 年12 月—2018 年12 月,每個樣本包含41 個特征向量。訓練集的時間跨度為2016年1月—2018年12月;2015年12 月京津冀地區經歷了多次重霧霾污染過程,低能見度天氣現象發生頻繁,因此選擇測試集的時間為2015年12月。

使用python 和機器學習庫scikit-learn 完成數據的預處理和基于LightGBM 的能見度預測模型建立。為了進一步將該模型與其他模型相比,還實現了多元線性回歸(Multiple Linear Regression,MLR)、結合粒子群優化算法的支持向量機(Support Vector Machine,SVM)、人工神經網絡(Artificial Neural Network,ANN)的建模,其中ANN 模型使用反向傳播算法進行訓練。

3.2 模型評估方法

為了評估模型的性能,將能見度按四個等級分別使用均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、相關系數(Relative coefficient,R)、預兆得分(Threat Score,TS)、漏報率和空報率作為評價指標。RMSE 和MAE 用于評估絕對誤差,可以反映預測的極值效應和誤差范圍值,TS 評分是氣象預報業務上常用的檢驗指標,用來全面評估預報準確性。TS評分公式為:

其中:NA為預報正確的站(次)數;NB為空報站(次)數;NC為漏報站(次)數。當預報等級與實況等級相同,則判定為預報正確;預報在某等級內而實況未出現在該等級內,則為空報;預報不在某等級內,而實況出現在該等級內,則為漏報。

3.3 模型參數調優

對于基于LightGBM 的能見度預測模型,本文采用Scikitlearn 提供的GridSearch(格網搜索)法進行4個主要參數調優:學習率、迭代次數、葉節點數以及樹的深度。在訓練數據集上,進行多次迭代,采用5 折交叉驗證的方法來確定訓練階段的最佳參數來用于預測。該模型參數最終確定為:學習率learning_rate=0.1,迭代次數n_estimators=100,葉節點num_leaves=64,樹的深度max_depth=8。

對于實驗中其他模型,例如多元線性回歸、支持向量機、神經網絡等,則根據不同模型的算法特性和調數參經驗進行參數的初始值設置,再采用GridSearch 進行參數優化。SVM構建模型時,核函數選“rbf”,初始化參數C為100,gamma參數為10,經過粒子群優化后最終參數確定為,kernel=′rbf′,C=23.250 4,gamma=14.298 0。ANN 模型設置隱含層為3層,每層10 個神經元,激活函數選“tanh”,學習率learning_rate=0.05,批量樣本batch_size=64。MLR 模型參數設置為:fit_intercept=True,normalize=False,copy_X=True,n_jobs=None。

3.3.1 能見度分級檢驗

在能見度預報業務中,經常使用分級檢驗方法來評估不同數值模式預報系統的預報效果,預報員尤其關注低能見度的預報準確率,數值模式研究人員也嘗試多種方法來提高低能見度的預報準確率。因此,本文也對能見度進行分級檢驗,按照4 個等級,分別計算各模型在不同等級上的TS 得分,其結果如圖5 所示。由圖5 可見,對于<2 km 的能見度,LightGBM TS 最高,預報效果最好,可達0.89,而SVM 模型TS最低,為0.65,ANN 和MLR 模型TS 比LightGBM 略低;對于2~5 km 能見度,LightGBM 和MLR 模型表現相不差上下;對于5~10 km 能見度,ANN 模型能見度的預報效果最好,LightGBM和MLR 模型的TS 均略低;對于當能見度≥10 km 時,各模型的預報均比較好,TS差別較小。LightGBM 在不同等級能見度上的TS 分別為0.89、0.51、0.41、0.58,低能見度預報效果最好。

圖5 幾個模型的TS得分Fig.5 TS scores of different models

3.3.2 幾種模型預報效果比較

北京城區人口密集,是人們生活、生產、交通相對集中的地區,也是低能見度的高發地;郊區人口密度相對稀疏,地勢開闊,因而發生低能見度的概率較少。因此,根據站點周邊環境以及氣候北京,從城區選擇3 個代表性的觀測站點,郊區選擇1 個代表性的站點進行誤差和預測結果的分析。對這4 個站點2015 年12 月24 日—31 日逐小時(共192 個時次)能見度進行預測,并分析平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)、R 等模型評價指標。幾個模型的總體誤差及在各站點的誤差如表3 所示。四個模型中,LightGBM 的RMSE 最小,R 相關系數最高,RMSE的值越小,說明預測模型具有更好的精確度,站點3 在海拔較高的地區,偏北風發生概率較高而且風速大,因此低能見度發生概率偏小,而LightGBM 對低能見度預報TS 評分比高能見度要高,因此對站點3 的預報誤差比其他三個站點誤差略高;ANN 模型在四個站點上的預測效果差異不大,總體情況與MLR 模型類似,不過MLR 模型在站點1 和站點3 上的MAE 偏差最大,說明MLR 模型對能見度峰值的預測與實況偏差較大;SVM模型的預測效果是四個模型中最差的,相關系數低于其他幾個模型。

表3 各模型在不同站點的誤差比較Tab.3 Error comparison of different models over different stations

四個站點中,所有模型均在站點2 上有最佳預測效果,因此給出四種模型對該站的逐小時能見度預測曲線隨時間的變化趨勢,如圖6所示,其中obs_value是能見度觀測值??梢钥闯?,對于192 個時次的能見度預報,各模型的表現差異比較明顯。LightGBM 的預測曲線與觀測曲線最為接近,尤其是在低能見度時的擬合非常好,表明該模型能較準確地對低能見度進行預測,隨著預報時效的增加,該模型的預測效果并沒有明顯下降;ANN 模型對低能見度的預測比實況偏高,對能見度>10 km的預報比實況明顯偏低,而且隨著預報時間的推移偏差逐漸增大;MLR 模型對低能見度的預報比實況也偏高,在能見度>5 km時與實況的變化趨勢保持一致,對能見度峰值的擬合較好;SVM模型的預測效果表現最差,預測值明顯高于觀測值。相比之下,LightGBM 整體預測效果最好。幾個模型在其他站點的預測表現與觀象臺站相類似。

圖6 不同模型對站點1的預報效果對比Fig.6 Comparison of forecast results of different models over station 1

4 結語

本文在分析北京地區不同等級能見度濃度隨季節變化規律、逐日變化趨勢的基礎上,利用隨機森林方法對氣象要素、大氣污染物濃度和能見度進行分析,選擇了關聯度最大的12個指標作為預測能見度的主要因素,并提出了一種使用集成學習LightGBM 預測能見度的方法。此外,針對數據缺測情況,設計了三種不同處理方法來替換缺失值,生成了2016—2018 年近三年逐小時的連續樣本數據集。通過幾個模型預測結果和誤差的對比表明,LightGBM 預測效果良好,尤其是對低能見度的預測,與實況擬合非常接近。

PM2.5濃度與能見度相關性比較大,在本文實驗中將它加入特征向量,取得了較好的預測效果。但是北京地區同時進行大氣污染物和氣象要素觀測的站點不多,在后續的研究中,需要考慮使用PM2.5實況格點數據對站點進行插值,在模型中接入更多的站點數據,進一步提高模型的效率和精度。

猜你喜歡
氣象要素北京地區能見度
北京地區現代農業裝備應用技術發展及人才培養分析
能見度與NOx、NO2日變化關系分析研究
歌華發布
淺析常州市PM2.5對能見度干擾
河蟹養殖水溫預報模型研究
探測環境變化對臨沭站氣象要素的影響
基于技術輸送與合同類型的北京高端裝備制造業技術交易現狀及對策分析
南京市氣溶膠和相對濕度對能見度的影響
不同水分條件下冬小麥農田蒸散研究
1971~2007年五蓮縣低劣能見度天氣變化規律
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合