?

基于多源地理大數據的我國GDP空間建模研究

2023-04-22 13:41陳漾漾曹泳茵
關鍵詞:區縣燈光建模

陳漾漾,曹泳茵,徐 勇

(廣州大學地理科學與遙感學院,廣東 廣州 510006)

國內生產總值(Gross Domestic Product,GDP)是一個國家所有常住單位在一定時期內生產活動的最終成果,是國民經濟核算的核心指標,也是衡量經濟狀況和發展水平的重要指標。目前政府核算年度GDP需要收集各行業和勞動者的各項經濟指標,即基于行業生產過程中的增加值或報酬收入兩種經濟指標分別計算,最終才能確定GDP數值,這必然會導致數據公布在時間上出現滯后,尤其是區縣級行政單元的年度GDP存在缺失值??焖贉蚀_預測大范圍行政區的GDP能為政府決策提供參考,同時也是亟需解決的問題[1]。

夜間燈光遙感影像能夠監測大范圍的地表人造光,Elvidge等[2]首次明確了地面人類活動造成的夜間燈光和GDP具有一定的線性關系,而后該遙感數據也被驗證出與GDP具有較強的相關性,是經濟相關活動的潛在指標[3]。并且該數據獲取成本低,已被廣泛應用于經濟估算[4-7]、貧困度估算[8]、城市發展等級排名[9]和疫情復工復產[10]等社會經濟領域的研究。與DMSP OLS夜間燈光數據相比,新一代的NPP VIIRS夜間燈光數據彌補了前者空間分辨率較低和燈光飽和等缺陷,對于GDP的擬合效果更佳[11-12]。

雖然夜間燈光對于截面GDP有著較好的指示性,但是燈光也會受到短暫的人類活動、自然現象(山火、云、雪、氣溶膠等)和下墊面的影響[13],有時并不能很好地反映經濟發展狀況。隨著無線網絡和便攜式移動設備的普及,人類社交媒體位置數據也成為擬合人口數量[14-17]和經濟狀況[18-19]的一個指標。Ma[20]基于夜間燈光數據和騰訊位置大數據的關系,發現在同樣光照強度不同地區的經濟活動也會存在較大差異。Zhao等[21]發現相較于穩定燈光產品,推特軟件位置數據沒有高估郊區和低估城市核心區的社會經濟狀況,可以將其視為夜間燈光的替代品來評估社會經濟因素。Huang等[18]發現騰訊用戶密度數據在區縣尺度GDP模擬中比NPPVIIRS夜間燈光數據更加強大和可靠。這些研究表明,人類社交媒體位置數據能夠彌補夜間燈光在擬合GDP方面的缺陷。

類似的還有興趣點數據(Points of Interest,POI),它能在微觀尺度上反映人類經濟活動,可以描述人類對于土地的細粒度開發方式,因此,POI已經被用于提取城市和社會系統的詳細信息[22-23]。同時也有學者將其運用到GDP預測中,如Chen等[24]將POI與夜間燈光數據耦合構建隨機森林模型分別制作三大產業GDP空間化地圖;此外,有學者結合POI與其他數據,通過構建線性模型來繪制GDP空間分布圖[25-27]。但是同種類型POI模擬GDP時所占的權重相同,存在經濟產出相差較大的情況,這會影響最終擬合結果,仍需補充能反映地域經濟活力性質的數據[24]。

除此之外,土地利用方式也是反映經濟發展水平的重要因素,其在一定程度上代表了城市化進程中人類聚居地的發展規模。Huang等[19]將城鎮建設面積納入到GDP建模中,發現其對GDP有顯著的正向作用。也有學者根據土地利用數據或將其與夜間燈光數據結合分別對不同產業GDP構建數學模型進行GDP空間化[28-31],表明了土地利用數據具有反映GDP的能力。

綜合前人所得的結論,夜間燈光遙感數據、POI數據和社交媒體位置信息三者在擬合GDP時是互相彌補的關系。盡管也有研究同時將以上地理大數據結合進行GDP估算[32-33],但是鮮有研究探討這些數據擬合GDP的潛力和性能,對于GDP空間建模尚無最優因子選擇方案[18]。且中國大陸幅員遼闊,各地自然人文條件差異較大,不同地理數據在不同地區的GDP反映能力目前尚未明確。

鑒于此,本研究將夜間燈光遙感數據、POI數據、騰訊位置大數據和土地利用數據作為構建GDP建模模型的候選指標,把這些指標疊加在中國大陸的區縣行政范圍,分別運用普通最小二乘法和地理加權回歸法模擬2020年中國大陸區縣的GDP。此外,研究還探討上述4種地理大數據在模擬GDP方面的能力,為最佳GDP建模因子的選擇和建模精度的提高提供參考。

1 研究區域和數據

1.1 研究區域

截止2020年底,全國共有34個省級行政單位,333個地級行政單位,2 843個縣級行政單位。本研究選擇中國大陸的區縣(除香港、臺灣以及金門縣和金沙市)作為研究區域,圖1為我國2020年區縣GDP空間分布圖。其中藍色表示低值,紅色則表示高值。中國區縣GDP自東向西遞減,GDP較高的區縣集中在京津地區、山東半島、華東沿海地區、華中、成渝城市群、粵港澳大灣區,而低值主要分布在東北北部、華北北部、青藏高原地區。

圖1 研究區Fig.1 Study area

1.2 數據及預處理

1.2.1 夜間燈光數據及預處理

本研究使用美國宇航局(National Aeronautics and Space Administration,NASA)基于NPP-VIIRS數據開發的新產品——黑色大理石(Black Marble)2020年年度合成數據VNP46A4(https://ladsweb.modaps.eosdis.nasa.gov/)進行分析。VNP46A4產品的空間分辨率約為500 m,已進行提前校正,且其分為無雪期和積雪期,為用戶下載選擇提供了更多的觀察天數。Li等[34]發現夜間燈光在城市不同地區和下墊面表現出不同的角度效應,因此,NASA后續將黑色大理石月度復合產品補充為3個視角類別,即近星下點(天頂角0~20度)、側視點(觀測天頂角40~60度)和所有角度,本研究選取觀測天數最多的AllAngle_Composite_Snow_Free數據作為燈光值自變量。

考慮到積雪期地面反射率增強以及積雪檢測錯誤可能會造成亮度值波動[13],使用Python遴選出無雪期的燈光亮度像元并完成影像拼接,隨后重投影為Albers_Conic_Equal_Area投影坐標系及重采樣至500 m。此外,VNP46A4產品并未過濾火光、油氣井等短暫光源干擾,為了減小影響,需要去除極大值。假設原始影像的一個地區亮度值大于同一時期的大城市最大亮度值,則將其識別成異常像素點進行校正。選取北京市、上海市、廣州市、深圳市的最大亮度值作為參照閾值,當識別到大于該參照閾值的異常像素點時,將其重新賦予周圍8個像元的中值,然后生成最終的年度夜間燈光影像。

1.2.2 POI數據

POI數據來自于北京大學開放數據平臺(https://doi.org/10.18170/DVN/WSXCNM),收集的時間截止到2018年9月30日,覆蓋全國。數據預處理包括清除不完整及重復的POI數據,最終保留34 955 806份有效的記錄,而后將高德坐標轉化為WGS84坐標再進行重投影。

POI精細分類可以最大程度保證類似產值的POI聚合在一起,因此,參照《國民經濟行業分類》(GB/T4754—2017)[35]對POI數據重新分類(表1),并進行空間核密度分析。在核密度分析中,不同搜索半徑得到的結果不同。將搜索半徑從100 m逐次增加100 m直至1 000 m以獲取最佳核密度搜索半徑,發現當搜索半徑在400 m及更大時,POI與GDP的相關性基本穩定且基本涵蓋所有POI小類別,這也與前人的研究結論相似[36]。為了最大程度減小共線性的影響,最終將300 m作為搜索半徑,以100 m為輸出像元大小,最后重采樣至500 m。

表1 POI分類表Table1 POI classification

1.2.3 騰訊位置大數據

騰訊位置大數據展現的是某個點位及其四周一定范圍內所有使用QQ和騰訊(社交訊息軟件)、京東和美團等應用軟件的定位數量。由于2020年以后騰訊位置大數據的接口限制,其空間分辨率約為5 000 m,無法滿足研究需要。因此,本研究選取2018年全年0:00-24:00的騰訊位置大數據[37]作為建模因子,其空間分辨率約為1 000 m。對其進行核密度分析,以1 000 m作為搜索半徑,輸出像元大小為500 m。

1.2.4 土地利用數據

本研究選取2020年30 m分辨率的中國土地利用遙感監測數據,來源于中國科學院資源環境科學與數據中心數據平臺(http://www.resdc.cn)。該數據分為耕地、林地、草地、水域、城鄉工礦居民用地和未利用土地6個一級分類,25個二級分類,將其重采樣為500 m分辨率,統計城鎮面積和工交建設用地面積總和作為城鎮建設用地自變量。

1.2.5 社會經濟統計數據

根據行政單元收集區縣GDP數據,獲取了2020年2 848個GDP數據作為訓練數據集。另外還收集了2018—2019年地級市和部分區縣GDP作為驗證數據集。

2 研究方法

相關性分析被用來檢測GDP和一些潛在因子的共變趨勢,為選取敏感因子提供參考。以區縣年度夜間燈光、騰訊位置大數據和12類區縣POI核密度總值作為自變量,區縣年度GDP為因變量進行相關性分析。結果表明,夜間燈光、騰訊位置大數據和城鎮建設面積與GDP的相關性分別為0.789、0.765、0.700。除了工廠POI外,其余POI類別核密度與GDP的相關性GDP的相關性均大于0.7(表1)。在此基礎上,通過向后篩選法選擇較優POI類別,最終根據逐步回歸法選取了夜間燈光、公司POI、政府及社會團體POI(以下簡稱“政府POI”)、騰訊位置大數據和城鎮建設用地面積作為最終模型的建模因子,這些建模因子的最大方差膨脹因子小于7.5,表明自變量之間沒有數據冗余。

2.1 普通最小二乘法回歸

普通最小二乘法(Ordinary Least Square,OLS)是分析兩個或多個變量關系的最常用的方法,采用最小二乘法量化GDP和地理因子的關系。為所有變量統一量綱,使用Zcore標準化到相同的范圍。OLS模型如下:

其中,y是因變量,表示第i個區縣的GDP;β0為模型的截距;Xi對應模型的第i個區縣的解釋變量,βi是回歸系數,它可以反映出每種變量對因變量的影響程度;εi為隨機誤差項。

2.2 地理加權回歸分析

OLS是假定全局的參數是穩定的,其計算的系數在空間上沒有顯著差異,是解釋變量在所有區縣平均意義上的參數估計值。但是中國經濟發展存在巨大的空間差異和不平衡性,這些差異會引起OLS精度和解釋因子出現一定的扭曲,采用地理加權回歸(Geographically Weighted Regression,GWR)模型能有效減少誤差。地理加權回歸模型在傳統的線性回歸模型基礎上考慮了空間對象的局部效應,運用局部加權最小二乘法來解釋不同空間區位自變量和因變量之間的關系,可以用于探討地理要素的空間異質性問題。模型的公式如下:

其中,y是因變量,表示第i個區縣的GDP;βi0(ui,vi)為該區縣的截距;xij對應模型的第i個區縣的解釋變量,βij是回歸系數;εi為隨機誤差項。經過不同空間核函數和帶寬確定方法的組合測試,選擇Adaptive bi-square作為空間核函數,AICc確定最優帶寬。

2.3 精度評價和驗證

對回歸模型和結果分別采用相對誤差(RE)、相對平均絕對誤差(%MAE)和均方根誤差(RMSE)進行評價。公式如下:

其中,y是GDP統計值,yhɑt是估計值。

3 結果分析

3.1 中國區縣GDP空間擬合結果

對區縣GDP數據和建模指標進行回歸系數求解,得到每個區縣的GDP估計值。從各項指標對比發現,GWR回歸結果的模型擬合度更好(表2)。相較于OLS模型的各項指標,GWR模型的總體擬合度高出12%;RSS值不足OLS模型的一半,表明模型擬合誤差更??;GWR模型的AICc值與OLS模型的AICc值差距遠遠大于3,這說明GWR模型更可靠。優秀的模型需要滿足回歸殘差在空間上隨機分布的條件。通過空間自相關測試發現殘差在空間上隨機分布,沒有呈顯著集聚或分散,也證明了GWR模型的可用性。因此,選擇使用GWR模型進行后續分析(圖2)。

表2 OLS模型與GWR模型的對比Table 2 Comparison between OLSmodel and GWR model

圖2 GDP估計空間分布圖Fig.2 The GDP distribution map of China

將估計值與統計值進行對比,發現GDP整體空間分布很接近,但是也存在GDP高估或低估的情況,在胡煥庸線以西附近地區尤為明顯。另外,分別計算得到全國2 848個區縣、368個地(縣)級市的%MAE值分別為25.59%和12.58%,即相應的準確率分別為74.41%和87.42%,模型總體的擬合準確率較高。

3.2 不同建模因子的擬合能力

將用于GWR模型建模的5個因子分別單獨進行OLS回歸和GWR回歸,探討其中最有利于擬合GDP的因子。我國GDP采取分級核算制度,地級市GDP統計值與其下轄區縣的GDP總和有細微出入。由于訓練數據集采用的是區縣GDP統計值,因此,本研究將地級市GDP統計值作為驗證數據,對估計的區縣GDP值進行RMSE和%MAE指標驗證(表3),以期更科學合理地對比不同建模因子對GDP的擬合能力。

表3 不同建模因子的精度評價Table 3 Accuracy evaluation of different modeling factors

根據表3可知,在各個因子中,GWR模型比OLS模型的準確率至少高出10%,并且結合所有因子估計GDP要比單個因子估計GDP的準確率高。同時,每種因子對GDP的擬合能力也不同,在GWR模型中,公司POI對GDP的擬合表現最好(相對應在地級市的準確率為86.17%),其次是騰訊位置大數據(85.76%)、政府POI(85.13%)和夜間燈光數據(83.82%),最后是城鎮建設用地面積(81.43%)。綜合兩個模型的不同因子精度評價結果,POI數據相較于其他數據更能反映GDP;而騰訊位置大數據全局的擬合效果不如夜間燈光數據,但在局部的效果卻比夜間燈光更好;城鎮建設用地面積對GDP的擬合能力較其他數據遜色。

將OLS模型和GWR模型的相對誤差鏈接到地圖上,可以探究不同數據在不同經濟發展程度地區的GDP擬合性能。研究將相對誤差劃分為(0,0.3],(0.3,0.6],(0.6~0.9],(0.9,+∞]等4種等級的準確度,其中,左列為OLS模型的相對誤差,右列為GWR模型的相對誤差(圖3)。從空間視覺上比較,無論是哪種數據和模型,胡煥庸線以西的地區GDP擬合誤差整體上都比其他地區呈現出更多數量的高值聚集現象,表明該地區的估計誤差相較東部地區來說更大。與夜間燈光數據和POI數據、城鎮建設用地面積相比,騰訊位置大數據明顯在新疆、西藏和青海等經濟較落后區縣的GDP擬合誤差更小,即能夠彌補上述數據在這些地區GDP擬合能力弱的缺陷,在東部地區,每種數據都能較好地擬合GDP,并沒有明顯區別。

圖3 不同建模因子的擬合相對誤差圖Fig.3 Relative error of GDPprediction using different indicators

3.3 不同建模因子的空間分異

探討不同建模因子回歸系數的空間異質性可以進一步驗證其對GDP的擬合能力,圖4展示了單個建模因子的GWR標準化回歸系數。如圖4(a)所示,夜間燈光數據在長江中游城市群、長江三角洲城市群東部、京津冀地區和山東半島等經濟發達地區表現出正向影響,而在西藏、新疆和東北地區則表現出較小的正向影響,這可能是燈光收集時受到下墊面和數據缺失的影響,但也表明夜間燈光能夠在一定程度上指代經濟發展狀況。如圖4(b)~圖4(c)所示,公司POI和政府POI在粵港澳大灣區、長江中游城市群、長江三角洲城市群、京津冀城市群和成渝城市群這5大國家級城市群均呈現出較其他地區更大的正向影響,代表POI對于經濟發達城市群的GDP預測具有地域普適性。如圖4(d)所示,較其他數據而言,騰訊位置大數據明顯在中國西南部對GDP有更大的正向影響,尤其是在新疆、青海和西藏的大部分區縣,這其中部分區縣GDP值甚至不超過3億元,表明人口數量和電子產品普及率能指代相對貧困地區的經濟水平。同時,北京市和上海市部分地區回歸系數大于1,說明騰訊位置大數據也能反映出發達地區的經濟水平,這也與前人的研究結果一致[18]。如圖4(e)所示,對于城鎮建設面積,成渝城市群、京津冀城市群、中原城市群和長江三角洲部分城市獲得了較大的回歸系數,但在胡煥庸線以西的地區影響卻很小,這可能因為這些地區土地集約化利用程度較低。

圖4 不同建模因子的GWR標準系數圖Fig.4 The standard coefficient of GWR model using different indicators

綜上,不同地區的經濟水平主導因素不同,POI數據在較發達地區或城市群有很好的指示作用,但是在西部貧困地區,騰訊位置大數據的指示作用更大。在中國大陸大范圍地域進行GDP預測,每種數據之間互相能起到彌補的作用,人類經濟活動、人口數量和城鎮化率對GDP估計都有一定的影響。

3.4 驗證

僅使用訓練數據集當年年份做驗證是不夠的,使用其他年份的數據做檢驗能更充分說明建模因子的普適性。本研究也收集了2018年和2019年VNP46A4夜間燈光數據、2018年土地利用數據(由于缺少2019年同源的土地利用數據,因此,將2018年土地利用數據作為2019年的土地利用方式,POI數據同理)和2019年騰訊位置大數據分別作為2018年和2019年的自變量驗證數據集,將2020年GWR模型的系數代入到其余年份的自變量數值來估計驗證當年地級市和區縣的GDP。如圖5所示,在兩個驗證年份中,GDP統計值和估計值的回歸R方均在0.8以上,回歸系數接近1,說明GWR模型的可靠性和建模因子具有普適性、有效性,可以基于這些地理因子快速監測行政單元的GDP。

圖5 不同年份GDP估計值驗證圖Fig.5 Verification of predicted GDP in different years

4 結論和討論

本研究基于夜間燈光遙感數據、POI數據、騰訊位置大數據和土地利用數據,繪制了中國區縣行政單元的GDP空間分布圖,總體準確率較高。無論是單因子還是多因子建模,GWR模型都比OLS模型的整體預測準確率提高了約10個百分點,這也表明基于多源地理大數據比單一地理數據繪制中國GDP分布圖更可取。同時探討了不同地理數據源擬合GDP的優劣性和適用性,為后續經濟研究提供一定的參考依據。結果表明,POI數據相較于夜間燈光遙感數據和騰訊位置大數據、土地利用數據,在GDP空間建模中具有更大的潛力,尤其是在經濟發達地區。但在貧困地區,騰訊位置大數據是反映經濟最好的指標。

受限于大范圍實時數據的獲取和騰訊位置大數據的分辨率,研究只基于2018年的POI數據和騰訊位置大數據進行回歸計算,然而2020年我國已經實現了全面脫貧,貧困區縣會增加一定數量的POI數據,且由于穿戴移動定位設備和電子產品普及率的提高也會導致騰訊位置數據量增多,因此,研究估計GDP也會受到一定的影響。目前,GDP的官方數據只統計到行政單位一級,很難與其他精細尺度的柵格數據匹配從而進行科學研究,因此,未來還將基于研究中的建模因子,利用隨機森林模型建立不同產業的模型來繪制GDP空間化柵格圖。

猜你喜歡
區縣燈光建模
水中燈光秀
今晚的燈光亮了天
來一場燈光派對
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
基于PSS/E的風電場建模與動態分析
不對稱半橋變換器的建模與仿真
區縣電視臺如何做好重大賽事報道
北京:上游水質不合格 下游區縣將收補償金
燈光閃閃
三元組輻射場的建模與仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合