?

遙感降水降尺度高精度校正及不確定性分析方法

2024-03-18 12:08董甲平冶運濤顧晶晶黃建雄關昊哲
水利學報 2024年2期
關鍵詞:置信區間不確定性殘差

董甲平,冶運濤,顧晶晶,黃建雄,關昊哲,曹 引

(1.天津大學 建筑工程學院,天津 300072;2.中國水利水電科學研究院 水資源研究所,北京 100038;3.水利部數字孿生流域重點實驗室,北京 100038)

1 研究背景

降水是全球水循環的重要組成部分,也是地表水文過程的基本驅動因子[1]。降水數據是進行流域水文分析、水資源規劃管理、洪澇干旱監測等研究的重要基礎數據[2]。目前獲取降水數據的手段主要包括地面站點觀測、雷達觀測和衛星遙感反演[3]。由于數據來源和插值算法存在限制,目前通過降水降尺度算法細化遙感降水數據已成為獲取高分辨率降水數據的重要途徑[4]。近年來,計算量小、靈活多變的統計降尺度方法獲得廣泛的應用[5]。根據Pathirana等[6]的研究,降水可以分成兩個部分:一是表示降水空間分異性的異質部分,主要表征地理位置、地形特征等確定性因素對降水的影響;二是表示降水隨機變異性的同質部分,主要表征氣旋、氣團、臺風等隨機性因素對降水的影響。降水由以上兩個部分組成,在不同的時間尺度上卻表現出不同的特點:小時間尺度(如小時或日尺度)的降水呈現隨機性,雖然它是隨機性和確定性成分的混合體,但是確定性的異質部分被更強烈的隨機性所掩蓋。當降水經長時間積累后,受平均效應影響,隨機性會同質化為均勻場,確定性的異質部分逐漸占據主導地位,隨著累積長度的增加,異質性會變得更加明顯。研究發現,基于地表環境變量構建的降水降尺度模型能夠準確模擬降水場的異質部分,卻難以有效反演降水場的同質部分,因此需要殘差校正補充降水場同質部分對降水的貢獻,上述降水場組合理論在降水降尺度校正研究中應用廣泛[7]。

過去幾十年中,眾多的插值方法被應用于降尺度殘差校正研究,但現有方法或基于地理統計學理論[8],或基于鄰域相關性假設[9],或基于彈性力學機制[10],并未考慮曲面的內蘊因素對曲面重建的約束作用,無法有效消除殘差校正過程中的誤差問題和多尺度問題[11]。而降水降尺度校正十分依賴尺度轉化,需要一種新的插值方法消除上述問題。高精度曲面建模方法(High Accuracy Surface Modeling,HASM)是近幾年發展起來的一種空間插值方法,它基于曲面論和最優控制論,以全局性近似數據為驅動場,局部高精度數據為優化控制條件,能有效解決插值過程中的誤差問題和多尺度問題[12]。HASM已在數字高程模型(Digital Elevation Model,DEM)構建[13]、土壤屬性要素模擬[14]以及氣候要素時空變化分析[15]等多個領域得到應用。岳天祥等[16]的大量研究表明HASM比經典插值方法的模擬精度更高,具有卓越優勢。目前,已經有學者開始將HASM應用于降水降尺度研究[17],但現有的研究主要通過數據融合提高降尺度結果的精度,并未從消除降水同質部分影響的角度進行嘗試。而且,在實際應用HASM時,必須根據模擬需求設定參數,而這些參數的不確定性會影響模擬結果的精確度和穩定性。模型參數優化對提升高精度曲面建模模型魯棒性和結果精度具有重要意義。但目前對HASM參數不確定性分析和參數優化的研究還十分匱乏。對HASM的研究,能夠為提升降水降尺度精度和改善數字孿生數據[18-19]提供一條可行思路。

針對上述問題,本研究結合貝葉斯優化和高精度曲面建模算法,提出了一種基于貝葉斯優化高精度曲面建模算法(Bayes-HASM)的遙感降水降尺度校正方法。該方法利用貝葉斯優化算法實現高精度曲面建模型參數的自動優化,并應用于降水降尺度校正,能夠有效降低模型的不確定性并提升降水降尺度精度。

2 研究區域概況

灤河流域(115°30′E—118°45′E,39°10′N—42°40′N)位于遼寧省、河北省和內蒙古自治區交界地帶,流域面積44 750 km2。地形特征明顯,上游為壩上高原,海拔高度1300~1400 m;中部為燕山山地,地形復雜,海拔高度1000~1800 m;東南部主要為平原,海拔在1000 m以下,如圖1所示。灤河流域處于半濕潤半干旱過渡帶,氣候復雜多變,年平均氣溫在1~11 ℃,多年平均降水量400~800 mm。降水的時空分布差異顯著[20],具有典型性和代表性。灤河流域是中國北方重要的生態屏障區,也是引灤入津工程重要水源所在地[21],對其水資源的管理和保護具有重要的意義。

圖1 研究區域

3 研究框架

統計降水降尺度包含降水降尺度環境變量識別、降水降尺度模型構建和降水降尺度校正三個關鍵環節,其中降尺度環境變量識別用于定量評估環境變量對降水空間分布的影響,實現統計降尺度環境變量的科學選??;降尺度模型構建用于構建環境變量與降水之間的統計關系,實現遙感降水數據的降尺度;降尺度校正用于消除降尺度模型結果與真實降水之間的各類偏差,實現高分辨降水數據的精確表達。這三個環節結合緊密,構成了完整的技術體系,對提高降水降尺度精度均起到了至關重要的作用。

本研究是在統計降水降尺度環境變量識別[22]和卷積神經網絡降水降尺度模型構建[23]成果的基礎上開展的后繼研究。在先前的研究中,采用地理探測器定量分析方法,通過因子探測、交互探測、生態探測和共線性分析這四個方面詳細研究了環境變量及其交互作用對降水空間分布的影響。隨后構建并探討了基于像元的卷積神經網絡降水降尺度模型,考察其在年、季、月和旬的性能表現以及模型參數的變化情況。本研究填補了統計降水降尺度系列研究的最后一塊拼圖,建立了從降水降尺度環境變量識別到高分辨率和高精度的降水產品生成的完整流程。

本文以消除降水場同質部分影響作為研究切入點,綜合應用貝葉斯優化和高精度曲面建模算法,實現HASM參數的自尋優和降水降尺度的高精度殘差校正。研究框架如圖2所示,降水降尺度校正的主要步驟包括:(1)驗證點要素獲取。隨機選擇70%點要素用于模型參數選取和高精度殘差模擬,剩余的30%的點要素用于不確定性分析和降尺度校正精度評價。(2)樣點數據和迭代初值獲取。使用所選70%的點要素提取訓練樣本點殘差值,并使用雙線性插值方法獲取殘差迭代初值。(3)貝葉斯優化模型參數篩選。首先隨機設定一組模型參數,代入HASM計算模型誤差,以此為先驗通過貝葉斯優化計算下一組有“潛力”的參數配置。逐次迭代直至達到最大迭代次數,選取誤差最小的參數配置為最優參數配置。(4)模型參數不確定性分析。對Bayes-HASM和原始HASM(隨機參數)進行不確定性分析,并探討貝葉斯優化是否對HASM產生積極意義。(5)降尺度校正結果計算及精度評價。使用降尺度模型結果減去殘差模擬曲面,得到降尺度校正結果,并利用驗證點數據(30%)提取的CGDPA數據進行精度評價。

圖2 研究框架

4 研究方法

4.1 Bayes-HASM算法構建的Bayes-HASM包含貝葉斯優化[24]和高精度曲面建模[12]兩個部分。高精度曲面建模用于計算殘差曲面,貝葉斯優化算法用于獲取高精度曲面建模的最優結構參數,通過將上述兩種算法集成,實現參數自優化的降水降尺度高精度校正算法。算法細節如下。

首先隨機生成一組模型參數X1={x1,x2,x3,…,x8}(需要考慮的參數有8個)。使用隨機參數X1計算降尺度結果,并與基準數據計算均方根誤差f1,將以上數據作為先驗知識得到后驗分布如式(1)所示:

p(f*|X,F,x*)=N(m,Σ)

(1)

式中:X={X1,X2,X3,…,Xn}為觀測數據集的模型參數組合向量;F={f1,f2,f3,…,fn}為觀測數據集降水均方根誤差;n為迭代次數;x*為一組預測模型參數組合;f*為代理模型的輸出結果;m為后驗分布的均值函數,Σ為后驗分布的協方差矩陣。

使用由均值函數m和協方差矩陣Σ構造的采集函數(式(2))會選擇具有最大可能性提高當前最大值的點作為下一個查詢點。

(2)

式中:Φ(·)為正態分布累積分布函數;mt為第t次迭代高斯過程概率密度函數的均值;Σt為第t次迭代高斯過程概率密度函數的方差;f(x+)為前t次迭代的已知最大值;argmax獲取使Φ(·)獲得最大值的參數;ε為極小正數用來權衡探索和開發;Xt+1為確定的下一次模型參數組合。

4.2 精度評價指標從兩個角度對降尺度校正算法的表現進行評估,其一是采用蒙特卡洛算法[25]對模型的不確定性定量評估,用于衡量貝葉斯優化前后高精度曲面建模的不確定性;其二是采用4個定量評價指標對降尺度校正結果精度評價,用于衡量使用算法校正前后精度的變化,這4個指標包括:相關系數CC(correlation coefficient)、相似指數IA(index of agreement)、均方根誤差RMSE(root mean square error)和相對偏差RB(relative bias)。

降尺度校正過程需要實測降水數據用于模型訓練和精度驗證,然而灤河流域氣象站點稀少,僅有5個國家級氣象站點,實測站點數據無法滿足需求,故本研究選用了國家氣象數據中心發布的2018年CGDPA(China Gauge-Based Daily Precipitation Analysis)降水產品作為降水基準數據。此產品以中國大陸國家級的雨量站點為基礎生成[26],經過了嚴格的質量控制,多項研究將其用作降水基準數據[27],精度值得信賴。最終,本研究使用的降水數據點共75個,用于模型訓練和驗證的數據點分別為52個(約占總數的70%)和23個(約占總數的30%),超過了其他同等面積流域降水降尺度研究樣本數量[28],足以支撐研究成果的準確性和可信度。

5 結果分析

5.1 模型不確定性評估提供給蒙特卡洛算法的樣本越多,統計結果越精確,但是Bayes-HASM算法本身消耗算力較大,樣本的增多會增加計算負擔,因此需要合理分配算力和確定樣本量以保障計算速度和統計結果準確。以年尺度為例,繪制計算次數與誤差置信區間關系圖(如圖3所示),結果顯示,隨著實驗次數的增加,模型誤差距平的置信區間逐漸收斂,在實驗次數達到200次時逐步穩定。因此,本文選用200次計算從整體和局部兩個層面對模型的不確定性進行定量評估。整體層面使用全部驗證點的200次誤差距平的95%置信區間評估,局部層面則使用單一驗證點的200次誤差的分布情況進行不確定性評估(為便于展示,選擇6個驗證點繪圖)。

圖3 計算次數與誤差距平置信區間關系

圖4將年、季尺度原始HASM和Bayes-HASM的置信區間進行了對比。在年、季尺度下,相對于原始HASM,Bayes-HASM能夠顯著降低模型的不確定性,并將誤差距平的置信區間穩定在0值附近,而原始HASM的置信區間則有較大幅度的波動,其中不確定性下降最明顯的是春季和冬季,誤差距平的置信區間從±0.8 mm優化到±0.1 mm,夏季、秋季和年尺度的不確定性也有不同程度的下降。出現這種現象的主要原因是春冬季降水較少,模型參數的波動更容易影響殘差的計算結果。

圖4 年、季尺度誤差置信區間對比

圖5通過選取年尺度的6個驗證點分析殘差的分布情況。圖示中,紅色為Bayes-HASM殘差分布小提琴圖,藍色為HASM殘差分布小提琴圖。通過比較殘差分布,Bayes-HASM的殘差能夠穩定在極小的范圍內,且該范圍小于原始HASM殘差范圍的1/10,這說明貝葉斯優化有效降低了高精度曲面建模的不確定性。其他尺度的殘差分布情況與年尺度一致,不再附圖展開詳細分析。不同時間尺度的原始HASM和Bayes-HASM的不確定性分析結果表明,Bayes-HASM具有較強的魯棒性和穩定性。

圖5 年尺度驗證點殘差分布

圖6分析了月尺度原始HASM和Bayes-HASM的模型不確定性情況。從整體上看,Bayes-HASM誤差距平的置信區間圍繞在0值附近,波動幅度小于±0.1 mm,原始HASM置信區間波動幅度較大,波動幅度超過±0.5 mm。不同月份下Bayes-HASM的不確定性較原始HASM均有降低,其中1、2、3、11和12月份降低幅度不大,4—10月份的降低幅度較為明顯,7、8月份最為明顯。這說明Bayes-HASM在月尺度上能有效降低建模誤差和不確定性,特別是降水量較大月份的效果更為顯著。

圖6 月尺度誤差置信區間對比

圖7對比了旬尺度下原始HASM和Bayes-HASM的誤差距平的置信區間。從整體上看,原始HASM和Bayes-HASM均能將誤差限定到較小的范圍,但是Bayes-HASM誤差距平的置信區間非常接近0值,而原始HASM的誤差距平有較大幅度的波動,說明在旬尺度下Bayes-HASM同樣能夠有效降低不確定性。7月中旬和8月中旬模型不確定性的降低幅度最大,將原始HASM誤差±0.6 mm的置信區間穩定到Bayes-HASM誤差的±0.1 mm,其他旬也將置信區間穩定在0值附近,這說明貝葉斯優化具有穩定器的作用,能夠有效消除HASM參數選取不合適帶來的不確定性。

通過對比圖4和圖6,發現季尺度下誤差距平波動幅度較大的是春季和冬季,而月尺度卻變為7、8、9月份。出現這種現象的主要原因是不同時間尺度降水累積量不同,主要誤差來源也不同。在季尺度下,灤河流域春季和冬季的降水量較少,主要為降雪,由于IMERG(Integrated Multi-satellite Retrievals for GPM)數據對微量降水和降雪的反演能力較差[29],所以在春季和秋季會出現較大的誤差。在月尺度下,月累計降水量的大小對降水誤差的影響更顯著,1、2、11和12月份的降水量小,相較灤河流域主要降水月份(7、8、9月)誤差值也會偏小,這種現象可以在圖7中得到驗證。

5.2 年、季降尺度校正降尺度校正選用的降尺度模型為卷積神經網絡降水降尺度模型,該模型已經在文獻[23]中進行了詳細的介紹。文中將卷積神經網絡模型(CNN)與粒子群優化反向傳播網絡模型(PSO-BP)[30]進行了精度對比。其結果表明,在年、季、月和旬尺度上,CNN的降尺度精度明顯優于PSO-BP,即使是在降尺度表現較差的1、2、11月份。文獻[23]也詳細分析了1、2和11月份降尺度效果不佳的原因:①灤河流域冬季降水稀少,其中2018年1、2月份累計降水量小于3 mm且絕大部分地區無降水,致使衛星降水產品與真實降水存在較大誤差。②查詢2018年的天氣情況,發現灤河流域11月份的5次降水均為降雪,由于衛星傳感器對降雪的探測能力不足,使得衛星降水產品在11月份存在較大的偏差,此種偏差也已經在文獻[31]中得到了佐證。所以本研究選用卷積神經網絡降水降尺度模型進行后續降尺度校正研究合理可行。

圖8比較了年降水降尺度殘差校正前后的精度評價指標。觀察圖8可見,校正后的散點更接近1∶1線,相較于校正前有明顯改善。校正后的所有指標均顯著提升,其中CC由0.66提升至0.97;IA指標由0.78提升至0.98;RMSE下降了67%;但RB與其他指標發生了背離,原因是多組驗證點誤差相互抵消。這表明Bayes-HASM能大幅提高年降水降尺度的精度。

圖8 年降水降尺度殘差校正前后精度對比

圖9比較了季降水降尺度殘差校正前后的精度指標。殘差校正后,四個季度的散點與1∶1線的偏離程度明顯減小。對比校正前后精度指標的變化,春季的CC提升了0.18、IA提升了0.11、RMSE下降了64%、RB改善了4.35%;夏季的CC提升了0.27、IA提升了0.18、RMSE下降了68%、RB改善了4.17%;秋季的CC提升了0.10、IA提升了0.13、RMSE下降了53%、RB改善了8.64%;冬季的CC提升了0.15、IA提升了0.10、RMSE下降了60%、RB改善了16.86%。結果表明,Bayes-HASM能明顯提升季降水降尺度的精度。在圖9(g)中,接近0 mm的降水量散點呈現水平分布,與其他季節不同,這是因為灤河流域冬季降水量很少,甚至有很多區域的降水量接近0 mm。在這種情況下,模型的訓練樣本成為稀疏數據[32],使用稀疏數據訓練降水降尺度模型通常效果不理想,這在冬季降水降尺度研究[33]中經常出現。

圖9 季降尺度殘差校正前后精度對比

5.3 月降尺度殘差校正月降水降尺度殘差校正前后的精度評價指標如表1所示。校正后,所有月份的精度指標均有較大幅度的改善,CC均超過0.89,其中,1、2、3、6、8、10和11月份CC提升顯著,幅度超過0.3;IA指標也都超過0.94,其中,1、2、6、8、10和11月份IA指標提升超過0.3;4、5、6、7、8和11月份的RMSE下降較為顯著,RB也有明顯改善,雖然4和9月份略微有所降低,但是變化不大。綜上,Bayes-HASM能有效提高月降水降尺度精度。

表1 月尺度降水殘差校正前后精度對比

通過對比12個月份降尺度殘差校正的精度變化,發現1、2、11月份的精度提升最為顯著,主要因為這些月份灤河流域降水極少,且大多為降雪,大量區域的降水量接近0,有效降雨樣本偏少,降尺度模型容易過擬合。同時,由于目前降水傳感器和降水反演算法存在局限性,對于較短時間尺度[28]、微量降水和降雪[29]的反演精度較差。在這些情況下,IMERG與CGDPA數據會存在較大偏差,導致校正前的精度相對較低。然而,Bayes-HASM算法在殘差曲面構建方面表現出色,因此在1、2和11月等降尺度校正中,其提升效果最為顯著。相比而言,6、7、8月份精度提升顯著的原因則有所不同,這三個月份為灤河流域的主要降水月份,貢獻了全年降水量的70%以上,植被茂盛且極端降雨較多,受降水產品對極端降水模擬較差和植被指數與降水存在遲滯性的影響,降尺度模型結果略差,但降尺度校正后的精度也得到明顯的提升。其余月份的降水量適中,環境變量與降水的關聯性強,降尺度模型本身精度較高,經校正之后精度得到進一步提升。

圖10顯示了殘差校正效果顯著月份的降水量頻率分布直方圖。比較1、2和11月份的CGDPA、殘差校正前后的降水頻率分布直方圖,發現這三個月份的絕大部分像元的月累積降水量都低于1 mm,有效降水樣本稀缺,導致模型的擬合效果不理想。查看8月份的頻率分布直方圖,發現該月份降水量較大,受到暴雨等極端降水的影響,降水場中同質部分占比較高,因此在殘差校正之前,降水降尺度模型的精度相對較低。然而,以上月份經過Bayes-HASM殘差校正后,降水數據直方圖更接近CGDPA數據,能更準確地反映灤河流域的真實降水分布。綜上,Bayes-HASM不僅能夠有效彌補因有效降水樣本稀缺導致的模型擬合效果不佳,也能有效消除降水場同質部分的影響。

圖10 月降水量頻率分布直方圖

5.4 旬降尺度殘差校正表2對比了旬降水降尺度殘差校正前后的精度評價指標,表格中刪除了累積降水量小于0.5 mm無效降水[34]的2月中下旬、5月上旬、11月上旬和12月下旬。通過對比發現,殘差校正后精度評價指標提升明顯,CC平均增加了0.41,IA平均提升了0.34,RMSE平均降低了61%,RB平均改善了256.12%。對比各旬的精度發現,殘差校正對精度的改善在不同季節存在差異,夏秋季有一定提升,而春冬季的改善效果更顯著,主要因為秋冬季降水較少,同質降水占比較高,不易被降尺度模型準確模擬,而殘差校正能夠彌補此不足,校正效果會更好。

表2 旬尺度降水殘差校正前后精度對比 單位:億m3

在旬尺度下,Bayes-HASM同樣表現出色,提升較大的月份包括1月上中下旬、二月中旬、4月中旬、8月上旬、9月中旬、10月上旬、11月中旬和12月中旬,因為1、2、11、12月份灤河流域降水較少,有效降水樣本不足,導致降尺度模型精度不高。然而,Bayes-HASM能夠有效彌補降尺度模型的偏差,進而大幅提升精度。另外4月中旬、8月上旬、9月中旬和10月下旬的評價指標也有較大幅度提升,從圖11可以發現,這些旬的IMERG和CGDPA數據存在較大偏差,導致由環境因子和IMERG數據計算得到的降尺度模型結果與真實降雨存在較大偏差。而殘差校正后的結果與CGDPA數據具有極高的相似性,證明Bayes-HASM能有效降低因數據偏差造成的降水降尺度誤差。

圖11 旬降水量頻率分布直方圖

5.5 討論殘差校正的結果顯示,與年尺度和季尺度相比,月和旬尺度的改善幅度更為顯著。這主要有兩個原因:①根據降水場的組合理論[6],隨降水累積長度的增加,隨機效應活躍性逐漸降低,異質性變得更加明顯,所以較小時間尺度的月和旬降水場同質部分占比更多,殘差校正的改善幅度更大。②由于目前降水傳感器和降尺度模型存在局限性,對于較短時間尺度[28]、微量降水和降雪[29]的反演精度較差,然而Bayes-HASM能夠十分有效的校正降尺度模型結果和真實降水之間的殘差,因此相較于年、季而言,對月和旬尺度的改善幅度更顯著。

在模型結果分析中,評估了年、季、月、旬四個尺度,但未選擇日尺度,是因為在日尺度上,衛星降水的空間降尺度存在諸多的問題,主要有以下幾個原因:①灤河流域春、冬兩季少雨,夏季多暴雨,日降水數據存在著大量的異常樣本。存在大量的異常樣本的日尺度降水降尺度還有待進一步的研究。②研究表明,不同時間尺度的衛星反演降水產品的精度差異顯著,小時間尺度的精度遠低于長時間尺度[2,35],因此衛星降水產品的精度制約了日尺度降尺度校正研究的可行性。③常用地表環境變量(如NDVI)與降水之間存在遲滯性,致使環境變量與日尺度之間缺乏顯著的相關性[36],因此,直接在日尺度進行降水空間降尺度是不可行的。

6 結論

本文采用Bayes-HASM算法對年、季、月和旬尺度的降水降尺度模型結果進行了校正,并從模型的不確定性、散點分布特征和精度評價指標等方面進行了深入分析和討論,得出以下結論:

(1)貝葉斯優化成功降低了高精度曲面建模的不確定性,起到增強模型的魯棒性和穩定性的作用,為模型應用于降尺度和其他領域提供了基礎。

(2)Bayes-HASM殘差校正顯著減小了降尺度結果散點與1∶1線的偏差,也顯著提升了年、季、月和旬尺度的精度指標。證明殘差校正結果能夠更準確地反映真實的降水情況。

(3)不同季節,降尺度殘差校正的精度提升存在差異。因不同季節降水累積量不同,使得降水同質部分占比也存在差異,因此相較于夏秋季,春冬季殘差校正的提升幅度更顯著。

(4)不同時間尺度降尺度殘差校正的精度提升也存在差異。盡管所有時間尺度的降尺度結果經過殘差校正后的精度評價指標都有不同程度的改善,但是月和旬尺度上改善幅度更為顯著,尤其是降水較少、降雪影響顯著的月份的改善幅度更大。

猜你喜歡
置信區間不確定性殘差
法律的兩種不確定性
基于雙向GRU與殘差擬合的車輛跟馳建模
定數截尾場合三參數pareto分布參數的最優置信區間
p-范分布中參數的置信區間
多個偏正態總體共同位置參數的Bootstrap置信區間
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
英鎊或繼續面臨不確定性風險
列車定位中置信區間的確定方法
具有不可測動態不確定性非線性系統的控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合