?

基于人工智能的臺風強度突變判別技術的應用

2024-01-06 04:30周冠博錢奇峰許映龍
自然災害學報 2023年6期
關鍵詞:云圖臺風時刻

周冠博,錢奇峰, 許映龍

(1. 國家氣象中心, 北京 100081; 2. 中國氣象局上海臺風研究所, 上海 200030)

0 引言

眾所周知,目前我國的臺風路徑預報水平已取得了明顯的提高,這主要得益于科技的進步和模式的發展,但目前臺風強度預報的發展還很緩慢,近5 a來強度預報誤差一直維持在4 m/s左右[1]。而近年來又連續出現了多個快速增強的臺風個例,如2020年基本上所有的登陸臺風都經歷了快速加強過程,2021—2022年的“舒力基”“燦都”“暹芭”“梅花”等臺風也相繼出現了強度的快速增強過程??焖僭鰪娛侵笩釒庑?tropical cyclones, TC)的強度在短時間內迅速增加,一般指24 h內TC強度增加15 m/s[2-3]。盡管深度學習在氣象學界已經大大改善了TC強度的估計[4],但作為一個多尺度相互作用的過程[5],TC快速增強的預測仍然是一項世界級難題。傳統的客觀預報方法主要是以統計預報和統計-動力模式為主,并且大多采用回歸等統計方法,對臺風強度的快速變化刻畫能力較弱[3],這使得實時預測TC快速增強非常困難,也給臺風的預報預警和防臺減災工作帶來了極大的挑戰[6-9]。

隨著人工智能技術的飛速發展,機器學習、深度學習等技術已經在氣象領域得到了廣泛應用并產生了很多應用成果,我國的熱帶氣旋智能監測和預報也開始嘗試基于氣象衛星云圖大數據和人工智能算法展開[10-12]。依靠我國氣象衛星事業的不斷發展,使得我們不僅可以獲取到更高時空分辨率的氣象衛星云圖大數據,同時利用衛星云圖也可以得到更加精細的臺風垂直探測結構,那么基于氣象衛星云圖大數據,并結合人工智能領域的新技術來應對臺風強度的突變問題將是未來的發展趨勢之一。

研究表明,人工智能技術在臺風強度預報方面有很好的發展前景[13-15]。PRADHAN等[16]使用基于卷積神經網絡(convolutional neural network, CNN)對臺風等級進行估計。ZAHERA等[17]使用LSTM(long short-term memory)和DNN(deep neural network)網絡對臺風強度進行估計。CHEN等[18]發布了一個開放數據集,提出了基于CNN強度回歸的多模型融合方法。最近的研究探討了應用深度學習來解決臺風快速增強這一任務的潛力,指出普通的Brier技巧評分不適用于類不平衡的數據集,而改用Heidke技巧評分(HSS)來代替它[19]。并且他們提出了一個基于ConvLSTM的模型,該模型帶有注意力,但沒有類再平衡策略。具體來說,與非RI事件相比,RI事件是罕見的,這就表現出數據集的極不平衡問題,使訓練變得困難。大多數現有的方法通過重新采樣和重新加權的再平衡策略來解決數據不平衡問題[20],這些方法增加了少數類的權重,但損害了代表能力的學習。還有一些研究提出了兩階段學習與再平衡方法,以全面考慮代表能力學習和分類器學習[21-22]。然而,這些方法假設測試類分布是均勻的,而RI測試類的分布是不平衡的,具有不同的分布。當面臨不平衡的數據集的時候,機器學習算法傾向于產生不太令人滿意的分類器,針對樣本數據不平衡的問題,本文采取了重采樣、重加權、冷啟動、樣本補齊等數據預處理工作。同時采用聯合時空關聯的深度學習模型為基礎,通過標注和學習衛星云圖大數據中的關鍵信息,并引入了生命周期指示,提出了一種自動化、客觀化的臺風快速增強趨勢判別技術來解決臺風強度快速增強的趨勢判別問題。

1 數據和方法

1.1 數據來源

本文使用的TC資料,包括中國氣象局(上海臺風研究所)整編的2005—2018年的最佳路徑數據集(http://tcdata.typhoon.org.cn/zjljsjj_sm.html),包含6h一次的TC位置、中心最低氣壓及中心附近最大風速等;2019—2022年中央氣象臺臺風路徑強度的實時預報產品;選取2005—2017年的葵花8衛星數據作為該模型的訓練集,2018年的衛星數據作為驗證集,2019—2021年的FY4A衛星數據作為測試集,數據集的樣本分布如圖1所示。

圖1 數據集的樣本分布Fig. 1 Sample distribution of data sets

從模型訓練集的樣本中可以看到,臺風的強度突變樣本占各個級別的總樣本數量的比例都較小,臺風的強度突變樣本是小概率事件,如圖2所示。當面臨不平衡的數據集時,機器學習算法傾向于產生不太令人滿意的分類器。對于任何一個不平衡的數據集,如果要預測的事件屬于少數類別,并且事件比例小于10%, 就通常將其稱為極不均衡數據。在預測過程中,采用的標準是12h內風速增加超過 7m/s的數據定義為突變樣本。整個數據集樣本(以突變樣本為正樣本,不突變樣本為負樣本)的正樣本和負樣本之比約為1∶11,分布是極不均衡的。

圖2 樣本集中各個臺風等級的樣本數以及其中的快速增強RI數目Fig. 2 Sample and RI numbers of each typhoon level in the sample set

對于極不均衡數據,采用采樣和加權的方法進行處理。

1)數據層面的處理方法:重采樣。數據輸入為4個臺風一組,比如[10,10,15,15]、[15,15,18,23]、[15,18,23,23]等。平衡分類的主要目標不是增加少數類的樣本數,而是降低多數類的樣本數。采用權重隨機采樣,根據給樣本權重進行采樣,召回率(recall)為80%的情況下精度(precision)可以達到24%。

2)訓練層面的處理方法:重加權。對不平衡的類別給予不同的懲罰。直接給樣本倒數重新加權損失的結果不一定很好。嘗試方法包括:交叉熵權重超參、Focal loss、LOCE。

3)對于不均衡數據的再平衡,僅對分類器進行再平衡效果較好。即原始數據訓練一個backbone之后,固定特征相關層參數(CNN和LSTM),再用re-balance的方法對分類器進行訓練,可以達到理想的效果。

另外,當遇到冷啟動,即當臺風剛剛開始,歷史數據不足4個臺風樣本時,如何預測快速增強判別?這也是序列預測或序列判別問題中的一個難點問題。針對冷啟動:初始數據輸入為4個臺風一組,只有1個歷史數據且風速=10m/s,則令[10,10,10,10];只有2個歷史數據且風速=10m/s和12m/s ,則令[10,10,10,12];只有3個歷史數據且風速=10、12、15m/s,則令[10,10,12,15]。當遇到樣本缺失,就是在臺風整個歷史序列中,不可避免的會發現有一些時刻數據丟失,造成的樣本序列不連續,給模型預測帶來風險。針對樣本缺失問題:若數據缺失第i個臺風,則使用最近的前一個時刻臺風樣本替代。比如:[10,12,?,18],則按照[10,12,12,18]處理。

1.2 模型簡介

在衛星數據解析后的像素為1800×1800的區域圖像中,根據中央氣象臺業務預報的臺風報文babj文件標記每隔6h的臺風生命周期,并裁剪出400×400的渦旋圖像序列。之后將圖像序列和標記的生命周期送入模型進行12h后臺風是否快速增強的趨勢判別。

模型主要采用人工智能領域的深度殘差網絡Resnet模型和基于時空關聯深度學習模型LSTM為技術基礎,通過標注、學習、預測已有衛星云圖數據中的關鍵信息來解決臺風強度快速增強趨勢預測和判別問題。首先基于深度殘差網絡Resnet模型提取臺風強度特征,再進一步根據時空關聯深度學習模型LSTM提取臺風強度變化特征,根據臺風強度趨勢周期和臺風強度突變檢測進行策略融合,最后輸出臺風強度突變趨勢判別結果如圖3所示。該模型提出了一種自動、客觀的臺風快速增強趨勢判別技術,提升臺風強度快速增強趨勢預測和判別的準確性。

圖3 模型流程圖Fig. 3 Model diagram

2 快速增強趨勢判別模型的構建

基于人工智能(artificial intelligence, AI)的臺風快速增強趨勢判別模型采用連續4個歷史時刻(相鄰間隔6h)的臺風圖片進行預測,采用預訓練的CNN模塊提取出衛星云圖特征和連續4個時刻的臺風強度(強度范圍是10~75m/s)在映射后嵌入,連在一起送入LSTM,此時根據臺風強度變化獲取生命周期指示(上升期和下降期),經過編碼后與LSTM的輸出concat,最后經過全連接層,得到臺風強度是否會出現快速增強的判別概率。

1)臺風強度變化特征提取

特征提取是強度趨勢預測和突變檢測的基礎。該技術基于歷史臺風時間序列數據進行學習,包括時序云圖序列數據、位置序列和其他相關數值數據,比如氣壓、降水等序列的學習,屬于有監督的多模態序列學習問題,這也是對傳統序列學習的一個挑戰。本文采用PIPELINE架構的3D卷積神經網絡CNN結合長短期記憶LSTM網絡構成的3D_LSTM模型,同時對初始時刻到任意t時刻的時序云圖序列的時間和空間特征進行序列學習,并結合其他時序位置數據、數值數據進行關聯和特征融合,預測臺風強度在下一時刻即t+1時刻的變化特征向量。

2)臺風強度趨勢預測

臺風強度趨勢預測是基于臺風強度變化的通用特征,即大樣本特征進行預測的技術,因此,在3D_LSTM模型得到的時序多模態下一時刻時空特征的基礎上,進一步構造回歸損失函數為基礎的預測模型,訓練并計算臺風強度變化的通用特征權重,從而預測臺風在下一時刻的強度。

3)臺風強度突變檢測

臺風強度突變檢測是基于臺風強度變化特征中突變特征,即需要在所有強度變化特征中學習出與強度突變影響相關的特征,因此,在3D_LSTM模型得到的時序多模態下時空特征的基礎上,進一步構造基于注意力機制的分類模型,計算不同時刻、不同特征的權重,從而預測臺風在t+1時刻的強度突變的級別和概率。最后,將2)和3)的結果分別作為進行交叉融合學習,得到最終的臺風強度趨勢判別結果。

4)臺風生命周期預測改進

臺風序列的生命周期分為:上升期、下降期和平穩期。上升期是指處于臺風風速增強的階段,需要預測是否發生快速增強;下降期是指處理臺風風速下降的階段,不會發生快速增強;平穩期是指臺風序列風速相同的階段。為了方便在平穩期預判是否會發生快速增強,需要根據前一個時刻是上升期還是下降期來標注平穩期處于哪個階段,從而減小平穩期的預測誤差。

3 檢驗分析

3.1 模型檢驗指標

基于AI的臺風快速增強趨勢判別模型的準確指標通過TS評分和綜合準確率來檢驗,其中TP代表實際突變預測為突變,TN代表實際非突變預測為非突變,FN代表實際突變預測為非突變,FP代表實際非突變預測為突變。則檢驗指標可以用式(1)~式(2)表示:

綜合準確率:

(1)

TS評分:

(2)

綜合準確率ACC1代表正確預測的突變和非突變時刻占總樣本數的比例;TS評分代表將非突變時刻正確預測排除后的突變時刻預測正確的比例。

3.2 模型測試結果分析

為了檢驗模型效果,分別選取了美國國家環境預報中心(National Centers for Environmental Prediction, NCEP)模式、中國中央氣象臺的預測結果、美國聯合臺風警報中心預測結果以及基于AI模型的預測結果進行了比較,如表1所示,NCEP的總樣本數為577,預測出74個突變時刻中的51個正確樣本;美國聯合臺風警報中心預測結果的總樣本數為609,預測出88個突變時刻中的28個正確樣本;中國中央氣象臺預測結果的總樣本數為1088,預測出95個突變時刻中的31個正確樣本;而基于AI模型對2019年28個臺風的業務云圖進行了綜合測試,總樣本數為472個,2019年28個臺風中有16個臺風經歷過臺風強度快速增強,共有46個突變時刻,本文模型的測試結果顯示成功預測出38個突變時刻,15個臺風的強度快速增強被預測到,TS評分達到了0.24。

表1 主、客觀預報對臺風快速增強的預測結果樣本數Table 1 Sample numbers of subiective and objective RI predictions

根據2019全年的測試樣本進一步統計比較,可以發現NCEP模式的TS評分為0.21,綜合準確率ACC1為70%,美國聯合臺風警報中心預測的TS評分為0.19,綜合準確率ACC1為34%,中國中央氣象臺預測的TS評分為0.15,綜合準確率ACC1為36%,而AI算法的TS評分為0.24,綜合準確率ACC1為82%,如圖4所示。由此可見,AI判別模型是以犧牲一定的錯誤率為代價,大大降低了漏報率,對實際RI樣本具有較高的預測精度。結果也表明,基于人工智能的RI判別技術的確是明顯優于傳統的主客觀強度預測方法。

圖4 主、客觀預報對臺風快速增強預測的綜合準確率Fig. 4 Comprehensive accuracy of subjective and objective RI predictions

3.3 AI模型在臺風“暹芭”預報中的應用檢驗

2022年3號臺風“暹芭”是2022年首個登陸我國的臺風,臺風 “暹芭” 2022年6月30日在我國南海中部海域生成,7月2日8時加強為臺風級,當日15時前后在廣東電白登陸(常年首臺登陸平均時間6月28日,首臺登陸平均強度30.8m/s),登陸時中心附近最大風力有12級(臺風級,35m/s),2日夜間以強熱帶風暴級的強度移入廣西境內,3日下午在廣西北部減弱為熱帶低壓,4日8時前后進入湖南并停止編號?!板甙拧奔捌錃堄喹h流先后從華南到東北影響我國16個省(市、區)。具有首個登陸臺風時間偏晚和強度偏強、深入內陸影響范圍廣、累計雨量大和出現多個龍卷風等特點。另外,“暹芭”屬于近海加強臺風,在距離登陸點110 km時加強為臺風,并以峰值強度登陸廣東電白沿海,是近20 a來登陸廣東省最強的南?!巴痢迸_風(指在我國南海生成的臺風)。

2203號臺風“暹芭”的分析結果如圖5所示,針對4個連續時刻的衛星云圖的特征提取,臺風強度突變的預測結果分析如下:中央氣象臺業務預報的臺風報文babj信息條數為94條,由于模型輸入的是序列數據,在預測時,以4條連續數據信息(間隔為6h)作為一個輸入,以此共得到81條有效信息,通過對81條信息進行標注,共標記了3條突變時刻(對于T時刻的標注為1意味著在T~T+12h內,臺風風速會增強≥7 m/s)。閾值超過0.55判定為出現快速增強,反之判定為沒有出現快速增強。樣例2203號臺風“暹芭”的結果綜合準確率是90.1%,漏報率是0,誤報率是10.2%,TS評分達到0.27。

圖5 2203號臺風“暹芭”的4個連續時刻的衛星云圖Fig. 5 Satellite cloud images of four consecutive moments of typhoon Chaba No.2203

通過對2203號臺風“暹芭”的全生命史進行測試,如圖6所示,可以發現該強度突變趨勢預測模型在2022年6月30日早晨快速增強RI概率有一個快速的升高,概率值超過了55%,接近65%,因此表明該模型對于臺風強度出現快速增強的初始時刻預測效果良好,這為臺風“暹芭”的氣象服務保障工作提供了很好的客觀產品的支撐,并且漏報率為0,而誤報主要出現在強度保持在較強的平穩期的情況下,這將是該AI模型需要繼續改進的地方。

圖6 針對2203號臺風“暹芭”模型估計與實況突變概率的比較Fig. 6 Comparison of the intensity estimated by the model and the intensity of best track for 2203 typhoon Chaba

選取2022年的另外4個強度突變的臺風,即2211號臺風“軒嵐諾”、2212號臺風“梅花”、2214號臺風“南瑪都”、2216號臺風“奧鹿”進行個例測試檢驗。

2211號臺風“軒嵐諾”的分析結果如圖7(a)所示,通過對126條信息進行標注,共標記了9條突變時刻,該樣例的漏報率是66.7%,誤報率是0.8%,TS評分達到了0.30。2212號臺風“梅花”的分析結果如圖7(b)所示,通過對149條信息進行標注,共標記了8條突變時刻,該樣例的漏報率是12.5%,誤報率是9.2%,TS評分達到了0.33。2214號臺風“南瑪都”的分析結果如圖7(c)所示,通過對30條信息進行標注,共標記了5條突變時刻,該樣例的漏報率是12.0%,誤報率是40.0%,TS評分達到了0.45。2216號臺風“奧鹿”的分析結果如圖7(d)所示,通過對61條信息進行標注,共標記了10條突變時刻,該樣例的漏報率是40.0%,誤報率是7.8%,TS評分達到了0.43。通過對2022年的4個強度突變臺風個例進行測試,可以發現該強度突變趨勢預測模型的TS評分均超過了0.37,結果顯示基于人工智能的臺風快速增強趨勢判別技術優于傳統主觀的強度預報方法,具有一定的業務應用價值。

圖7 AI快速增強判別模型的突變概率與實況臺風的突變概率比較Fig. 7 Comparison between RI probability predicted by AI model and the actural RI probability

綜上所述,通過對測試集2019—2021年強度突變的臺風樣本以及2022年多個快速增強臺風個例進行測試,可以發現該強度突變趨勢預測模型的綜合準確率均超過84.6%,而誤報和漏報主要出現在上升期出現下降或保持平穩的情況下,這也是未來將要繼續改進該AI模型的地方。

4 結論與討論

本文采用人工智能領域的深度殘差網絡Resnet模型和基于時空關聯深度學習模型LSTM為技術基礎,通過標注、學習西北太平洋及南海臺風的衛星云圖數據中的關鍵信息,提出了一種時序預測的臺風快速增強趨勢判別框架,包括以PIPELINE方式將Resnet模型和雙層LSTM網絡進行融合的方式,根據臺風風速變化提出了臺風生命周期指示這個新指標,以提取更準確的臺風時空聯合演化特征,提出了一種自動、客觀的臺風快速增強趨勢判別技術,可以有效地解決臺風強度快速增強趨勢預測和判別問題。

對比目前傳統的臺風強度快速增強趨勢判別的方法,人工智能新技術避免了預報人員的主觀性,可以持續穩定高效地工作,從而減少預報人員繁瑣的預報工作,同時也提升了臺風強度快速增強趨勢判別的效率。相比于現有技術,在考慮了數據缺失和數據分布不平衡的基礎上,本文提出的新方法能夠更快速準確地提取出臺風快速增強的特征,從而提升了臺風快速增強趨勢判別的準確率,也進一步推進了臺風強度預報業務的智能化。

但是目前本文僅是基于人工智能技術來解決西北太平洋和南海臺風RI趨勢判別的問題,在有其他海域臺風歷史資料的前提下,未來可以拓展對全球其他海域的臺風RI趨勢判別業務,更好地支撐業務人員在全球更廣闊的海域展開臺風強度的預報預警工作。

猜你喜歡
云圖臺風時刻
臺風過韓
冬“傲”時刻
捕獵時刻
臺風來了
成都云圖控股股份有限公司
臺風愛搗亂
黃強先生作品《雨后松云圖》
基于TV-L1分解的紅外云圖超分辨率算法
云圖青石板
一天的時刻
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合