?

基于紋理特征和機器學習的衛星云圖分類實驗

2023-12-11 01:12顧天紅杜小玲朱育雷張艷梅吳昌航
中低緯山地氣象 2023年5期
關鍵詞:層云積雨云云圖

顧天紅,杜小玲,李 力,朱育雷,張艷梅,吳昌航

(貴州省氣象臺,貴州 貴陽 550002)

0 引言

衛星云圖以其觀測范圍廣、測量物不受測量系統干擾等特性,越來越廣泛地應用于常規天氣預報和氣象科學研究中,在森林防火、資源調查和環境監測等領域也占據著十分重要的地位[1-2]。云是氣象預報中至關重要的觀測要素之一,“看云識天氣”,不同類型的云對天氣的指示作用不同,所以準確識別云對提升天氣預報和氣候預測準確性有著重要意義[3-4]。國際云氣候計劃(ISCCP)根據云頂氣壓將云主要分為高云、中云和低云[5];基于結構形式、范圍大小、邊界形狀、色調、暗影和紋理6種判據,在衛星氣象學中又分為較為常見的4種:層云、卷云、積云和積雨云[6]。云的自動識別最早由Shenk等[7]提出,隨著圖像處理和模式識別技術的飛速發展,基于云圖的分類和識別成為新的研究熱點。傳統的云檢測和云分類分為閾值法和聚類法,由于衛星圖像隨時間、地點、地表而變化,很難找出通用的閾值標準和聚類方法。近年來,機器學習在衛星云圖分類識別領域受到關注并迅速發展[8],經過大量學者的對比研究,發現基于機器學習的分類無論是分類速度還是分類精度都有明顯提升。劉揚[9]基于閾值法和支持向量機對7類云進行了分類;陳晨[10]研究對比了極限學習機和支持向量機在衛星云圖中的云分類,發現極限學習機在分類速度上有明顯優勢,但分類精度低于SVM;邵麗群[11]將堆疊極限學習機應用于衛星云圖自動分類,發現極限學習機與支持向量機相比,在泛化能力和學習速度上有明顯優勢,但分類精度仍低于支持向量機;田文哲等[12]采用自適應模糊支持向量機來實現對晴空區、低云、中云、高云及直展云的分類,識別準確率均優于標準支持向量機和傳統模糊支持向量機;鄭宗生等[13]提出基于參數遷移的衛星云圖下臺風等級的分類方法,發現分類精度明顯高于淺層卷積神經網絡和源模型;張敏靖等[14]結合對抗學習和遷移學習的卷積神經網絡進行災害天氣云圖分類研究,顯著提升了各類災害天氣的分類精度。而衛星云圖中的云的分類和識別,實質上是對圖像進行切割和特征提取等處理[15]。紋理是物體結構的反映,分析紋理特征能獲取圖像綜合信息,故可以通過提取云圖紋理特征來實現對云的分類識別[16-17]。

本文采用提取云圖的紋理特征參數作為云圖樣本集的特征向量,再分別用支持向量機、隨機森林和XGboost分類器進行云的分類識別實驗,旨在為云團的追蹤識別奠定基礎。

1 資料與方法

1.1 資料來源

因目前尚無云圖數據庫公開可用,本文采用自建云圖庫??紤]到盡可能降低人為判斷識別的主觀性,本文參考風云衛星遙感數據服務網站(http∶//satellite.nsmc.org.cn/PortalSite/Default.aspx)上FY-2G云分類產品(圖1),將云分類成以下5種:晴空、層積云或高積云、積雨云、密層云和卷層云。

圖1 同一時次FY-2H云分類產品與FY-2G紅外云圖對照Fig.1 Comparison of FY-2H cloud classification products and FY-2G infrared cloud image at the same time

為使研究對象與觀測能力相適應,考慮到紅外通道不受日照因素影響,觀測連續性佳,本文所用實驗數據均來自2020年4—6月風云二號G星的紅外云圖(IR1)。對照同一時次風云衛星遙感數據服務網站(http∶//satellite.nsmc.org.cn/PortalSite/Default.aspx)上FY-2G云分類產品,對紅外云圖進行人為分割分類,統一像素比為50×50,共制作完成了500張云型圖像,其中晴空、層積云或高積云、積雨云、密層云和卷層云各100張,部分原始數據集如圖2所示。

圖2 衛星云圖部分原始數據集示意圖Fig.2 The partial diagram of original satellite cloud image data set

1.2 云圖紋理特征及提取方法

目前,提取圖像紋理特征的方法主要有4種,即基于分布模型參數的模型法、基于紋理基元的結構分析法、基于線性變換和濾波處理的信號處理法和基于圖像灰度值的統計分析法[18]。其中,信號處理法和統計分析法是目前最常用且提取效果較好的2種方法[19]。實踐表明,對于類似地形紋理分析[20]、氣象云圖分析[21]等復雜無規律的紋理分析,很多文獻中一般使用基于統計分析的典型方法即灰度共生矩陣法(Grey-level Co-occurrence Matrix,GLCM),故本文也采用這一方法進行衛星云圖紋理特征分析。

1.2.1 灰度共生矩陣 灰度共生矩陣(GLCM)是由Haralick提出的一種能夠統計圖像中每種灰度信息出現頻次的紋理特征提取方法[22],能較為精確地反映圖像灰度的方向、相鄰距離和變化幅度[23]。GLCM定義為圖像中2個不同像素點灰度分布的聯合概率密度P(i,j,d,θ)構成,其計算原理如下[24]:

式中,d和θ分別為2像素點之間的距離和方向(通常取0°,45°,90°,135°),分子代表像素對(i,j)的個數,分母代表像素對的總數(#表示數量),上式得到的P是歸一化的。將聯合概率密度P(i,j,d,θ)寫成矩陣形式,即得到GLCM,其像素對分布示意圖如圖3。

圖3 GLCM像素對分布示意圖Fig.3 The distribution diagram of GLCM pixel pair

1.2.2 基于灰度共生矩陣的紋理屬性 盡管GLCM能描述圖像紋理信息,但為了進行更深入的紋理分析,實際應用中通常不直接使用GLCM,而是基于GLCM再作統計處理,得到的二次統計量再作為圖像的紋理特征[25]。Haralik定義了14種紋理特征參量,但經過Baraldi驗證,發現對遙感云圖特征提取效果最好的4種參量為能量、相關性、對比度和熵[23]。

(1)能量(Energy)是GLCM元素值的平方和,反映圖像灰度分布均勻性和紋理粗細度。圖像紋理越粗,其能量值越大。

(2)相關性(Correlation)是度量GLCM元素在行或列上的相似度,反映圖像中局部灰度相關性。GLCM元素越均等,相關性越大。

(3)對比度(Contrast)反映圖像的清晰度和紋理溝紋深淺程度。紋理溝紋越深,對比度越大。

(4)熵(Entropy)是圖像隨機性的度量,反映圖像信息的復雜程度。紋理越復雜,熵越大。

2 算法實現

基于Matlab編寫GLCM紋理特征提取代碼,基于Python 3.8編寫云圖分類識別代碼,其算法步驟如下:

開始→批量讀入圖像→轉化成灰度圖像→計算灰度共生矩陣→計算紋理特征統計值(4個方向4個特征值)→計算均值作為最終特征值→基于所提取特征值分別建立SVM、RF和XGBoost分類模型→分類效果評估→結束。

3 紋理特征統計分析

利用GLCM對晴空、層積云或高積云、積雨云、密層云和卷層云各100張云圖分別進行紋理特征參數(均為無量綱數)計算,基于箱線圖得出對比度、相關性、熵和能量分別在4個θ方向上的均值的主體范圍(圖4)。箱線圖的最高點為最大值,最低點為最小值,箱體上框線為75%上四分位值,下部框線為25%下四分位值,箱中黑橫線為中位數,黑點為平均值。綜合來看,利用對比度、相關性、熵和能量4種紋理特征參數,較容易將層積云或高積云(1)區分出來,而剩下4類依靠統計特征難以人為地區分,故很有必要引入機器學習來進行分類識別。

圖4 5種云分類的對比度(a)、相關性(b)、熵(c)、能量(d)參數箱線圖 (圖中0~4分別為晴空、層積云或高積云、積雨云、密層云、卷層云)Fig.4 The box plots of contrast (a), correlation (b), entropy (c) and energy (d) parameters of five cloud classification products (0~4 in the figures are clear sky, stratocumulus or altocumulus, cumulonimbus, dense stratus and cirrostratus)

4 基于機器學習的云分類識別實驗

4.1 支持向量機簡介

支持向量機(SVM)是Cortes和Vapnik于1964年首次提出的一種基于統計理論用來解決分類問題的分類器[25],在20世紀90年代快速發展并不斷優化改進,在模式識別中展現出良好的泛化性,在小樣本、高維度和非線性問題上有明顯優勢[26]。

4.2 隨機森林簡介

隨機森林是以很多互不關聯的決策樹為基礎構建的一種集成學習(Ensemble Learning)方法,采用bootsrap有放回地抽樣,讓森林里的每棵決策樹都對一次抽樣進行投票,遵從少數服從多數的原則,綜合考慮所有樹的決策結果最終得出決策模型[27]。隨機森林算法因參數少、不易過擬合等優點,被廣泛應用于分類和回歸問題[28]。

4.3 XGBoost簡介

XGBoost以分類回歸樹(Classification and Regression Tree,CART)為基分類器,相關性通過梯度提升來集成,是梯度提升算法的進化版[29]。XGBoost對每個特征進行分塊(block)排序,使其在尋找最佳分裂點的時候能夠并行化計算,以提高運行速度[30]。

4.4 分類結果及分析

構建的云圖樣本庫共500個,每一類分別為100個,分類模型按樣本容量的70%隨機分層抽取作為訓練集與測試集,比例為7∶3。樣本特征為:“CON”—對比度,“COR”—相關性,“ENT”—熵,“AMS”—能量;樣本標簽為:“0”—晴空,“1”—層積云或高積云,“2”—積雨云,“3”—密層云,“4”—卷層云。實驗構造的SVM使用徑向基函數(RBF),C取1,g取“auto”;RF和XGBoost各參數均為默認。3種分類器對該樣本分別進行10次訓練,最后取其平均準確率作為評估。分類結果見表1,部分運行結果截圖見圖5。

表1 3種分類器結果對比(單位:%)Tab.1 Comparison of the results of three classifiers(unit:%)

圖5 Python 3.8下某次分類結果運行截圖Fig.5 The screenshot of a classification result in Python 3.8

分析可知,RF對該實驗云分類的平均準確率最高,約為62.5%;XGBoost次之,約為61.7%;SVM分類效果最差,約為60.0%。其中,SVM對這5種云分類效果依次為:層積云或高積云(90.3%)>密層云(67.9%)>積雨云(56.1%)>卷層云(48.9%)>晴空(45.1%);RF為:層積云或高積云(91.5%)>卷層云(68.9%)>積雨云(60.0%)>密層云(54.6%)>晴空(52.3%);XGBoost則為:層積云或高積云(90.0%)>晴空(68.3%)>積雨云(60.0%)>密層云(54.0%)>卷層云(51.6%)。綜上,SVM、RF和XGBoost對“層積云或高積云”的分類識別效果都最穩定且最好,均達到了90%以上。

5 結論與討論

本文基于云圖紋理特征提取,得出的統計特征參數難以人為區分“晴空”、“層積云或高積云”、“積雨云”、“密層云”和“卷層云”,故結合支持向量機(SVM)、隨機森林(RF)和XGboost分類器來實現對這5類云的分類,得出實驗結論如下:

(1)利用對比度、相關性、熵和能量4種紋理特征參數,能較容易地將“層積云或高積云”區分出來,而剩下4類依靠統計特征難以人為地區分。

(2)3種分類器對該實驗云分類的平均準確率分別為RF(62.5%)>XGBoost(61.7%)>SVM(60.0%)。而在劉揚[9]的研究中使用的SVM云分類器在參數組合為(C=0.5625,g=0.0)時平均準確率最高,為49.925%。

(3)SVM、RF和XGBoost 3種分類器對本文構建的衛星云圖樣本庫的分類訓練結果不一,但對“層積云或高積云”的分類效果都最好且穩定,平均分類精度均達到了90%以上,最高為91.5%;除此之外,SVM對密層云(67.9%)、RF對卷層云(68.9%)、XGboost對晴空(68.3%)的分類效果次之,平均分類精度均達67%以上。而在邵麗群[11]的研究中,基于光譜特征和紋理特征的堆疊極限學習機(S-ELMs)對“層積云或高積云”的分類精度為96.67%,對“積雨云”為82.64%,對“晴空”則為41.22%。

本實驗存在以下問題有待改進:(1)樣本容量小;(2)樣本特征單一且少;(3)樣本庫的構建主觀性仍難以消除;(4)所選用機器學習分類器未進行調參優化。

猜你喜歡
層云積雨云云圖
中秋遣懷(新韻)
成都云圖控股股份有限公司
成都積雨云形成的層結條件分析
有壓迫感的層云
穿越積雨云
蔡俊的詩
黃強先生作品《雨后松云圖》
基于TV-L1分解的紅外云圖超分辨率算法
云圖青石板
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合