?

基于建筑物與POI數據的人口空間化研究

2023-03-06 06:58李金香譚明古力孜帕木拉提李波張金燕
中國地震 2023年4期
關鍵詞:格網分區建筑物

李金香 譚明 古力孜帕·木拉提 李波 張金燕

新疆維吾爾自治區地震局,烏魯木齊 830011

0 引言

新疆地區地震頻發,給新疆人民造成了巨大的人員傷亡和經濟損失。在地震應急救援工作中,以行政區劃為單元的人口統計數據在使用中存在的空間分辨率低、直觀性差、不支持空間運算和分析等不足亟待解決(高義等,2013)。無論是震前預測還是震后快速評估,準確的人口空間分布信息是人員傷亡評估的基礎(徐敬海等,2016; 謝江麗等,2019; 周中紅等,2019; 朱鵬宇等,2022),以往地震應急工作中以鄉鎮級行政區劃的人口平均密度或面積權重法計算的人口數量,與實際調查結果間存在較大誤差。尤其是新疆人口的不均勻分布,使得這種方法獲取的數據精度不高。而人口數據空間化能夠更為客觀地展示人口分布情況,是解決該問題的有效手段。

近年來,得益于遙感(RS)和地理信息系統(GIS)技術的迅速發展,統計數據格網化得到了快速發展。人口數據空間化一直是統計數據空間化的主要研究方向(董南等,2016)。王雪梅等(2004)在回顧了國內外人口空間化研究的主要方法后,認為國外的研究主要包括從遙感解譯信息反演人口數據、從DMSP-OLS夜間燈光數據反演人口數據和從遙感直接獲取的光譜特征直接反演人口數據幾個方面。而國內的研究主要是根據土地利用數據和其他地理因子(如高程、道路、居民區等)建立回歸模型來反演人口數據(柏中強等,2015; 王珂靖等,2016; 崔曉臨等,2020; 杜培培等,2020)。隨著人口數據空間化研究的深入,形成了一系列具有代表性的模型和方法,主要有核密度估計法(孫艷萍等,2018)、面積內插法(呂安民等,2002)、土地利用影響模型(江東等,2002; 黃河清等,2009; 唐奇等,2012)以及多源數據融合模型(董春等,2002; 王春菊等,2004; 淳錦等,2018; 趙鑫等,2020; 王曉潔等,2020; 王芳等,2021)。已有研究大多基于遙感夜間燈光數據、土地利用數據等(高倩等,2017; 王明明等,2019; 于婷婷,2021),并采用模型算法進行估算,是全局性的建模分析,未能完全地考慮微觀尺度上人口分布的隨機性,不能反映內部差異,缺少對人口空間分布異質性、非平穩性的研究,特別是針對以縣級區劃為基本研究單元的理論研究。隨著時代發展,目前房屋建筑空間分布數據越來越精細,POI(Points of Interest)點數據越來越詳實,基于房屋真實空間分布數據進行人口統計數據空間化會大大提升千米格網數據的準確性,為新疆地區地震應急輔助決策提供更加科學準確的數據支撐。

本研究以新疆“基于遙感影像和經驗估計的區域房屋震害風險初判”項目的示范區——新疆巴楚縣、庫車市和烏魯木齊縣為研究區,以規則格網為研究單元,利用建筑物空間分布數據、POI數據、路網數據、人口統計數據等數據源,進行人口空間化算法模型研究,以期獲得空間精度和寫實程度能夠滿足地震應急應用要求且使用方便靈活的格網化空間數據,提升地震災情評估速度和準確度。

1 研究區概況與數據處理

1.1 研究區概況

巴楚縣位于天山南麓,塔里木盆地和塔克拉瑪干沙漠邊緣,轄4鎮8鄉,處于巴楚隆起大地構造單元(圖1(a))。庫車市位于天山中部南麓,塔里木盆地北緣,轄8鎮6鄉4街道,地勢北高南低、自西北向東南傾斜,地貌分為北部山地、中部戈壁和南部沖積平原(圖1(b))。烏魯木齊縣南依天山,北與準噶爾盆地相連,地勢東南高,西北低,轄3鎮3鄉(圖1(c))。巴楚縣、庫車市與烏魯木齊縣歷史上地震頻發,人口分布卻極不均勻,三縣人口均集中分布在綠洲區域,中心城區人口密集,經濟發展迅速,交通設施、購物、教育醫療等服務機構完善,山地、戈壁及沙漠地區人煙稀少,各鄉之間人口差異明顯。本文選取三縣為研究區域,具有一定的研究意義。

圖1 研究區概況

1.2 數據處理與技術路線

數據中的人口統計數據包含鄉鎮人口統計數據; 行政區劃數據來自新疆地震應急基礎數據庫,包含鄉鎮行政區劃面矢量數據,存儲格式為shp格式,字段屬性包含行政區劃代碼、行政區劃名稱等; 交通路網空間數據來自新疆地震應急基礎數據庫,包括國道、省道、縣道、鄉道、專用道、城市內部道路等; 房屋空間分布數據通過“基于遙感影像和經驗估計的區域房屋震害風險初判”項目獲取; 電子地圖興趣點來自高德導航數據,興趣點包括學校、超市、醫院等點位數據。

數據預處理主要包括:空間數據配準,完成各類空間數據位置校正; 人口統計數據與鄉鎮街道行政區劃數據完成關聯; 對POI數據進行清洗與剪切,進而進行分類整理。

POI數據是一種代表真實地理實體的點狀地理空間大數據,數據量十分龐大,涉及人們生產生活的各個方面,發掘其中所蘊含的內在信息關系,提取有用的內容,是當前的研究熱點之一。目前常見的電子地圖均包含POI,且都具有名稱、類別和位置等主要屬性,為了方便查詢,需對其進行分類。POI的分類體系不可能將包羅萬象的所有信息進行精準分類,只能將基礎和普遍的信息進行分類,以滿足大眾的基本需求。在此條件下,POI分類代碼體系的編制應遵循一定的原則。高德軟件公司與天地圖有限公司、北京四維圖新科技股份有限公司、中國物品編碼中心等多家單位共同參與完成了中華人民共和國國家標準 GB/T35648—2017 《地理信息興趣點分類與編碼》的起草。高德軟件POI編碼規則符合國標標準,采用線分類法將POI分為大類、中類、小類三個層次,其中依據POI使用的普遍性和社會公眾對于POI的關注程度劃分大類,每一大類按照其不同特點和相互之間的內在聯系劃分中類和小類。本文的POI數據來自高德導航,數據在獲取的同時配有高德數據分類代碼表,根據分類代碼,對POI數據進行分類整理(表1)。最后根據研究區域經濟發展情況進行分區。

表1 部分POI數據分類

在對研究區進行分區后,計算各區域內建筑物面積、道路密度、各類型POI數量等,與人口數據進行相關性分析,選擇與人口數據存在顯著相關的因子進行多元線性回歸,建立各分區的人口空間數據集。技術路線如圖2所示。

圖2 技術路線

2 研究方法

本文以建筑物空間分布數據、POI數據、路網數據、人口統計數據等數據源為基礎,進行人口空間化算法模型研究(圖3)。建筑物是人們生產生活的房屋及其附屬設施,是最直接反映人口分布的因子(劉煥金,2012)。道路對人口分布具有指示作用,然而新疆地廣人稀,人口在綠洲區集中分布,很多鄉鎮面積大、道路長度長而人口稀少,因此采用道路長度進行人口分布研究存在偏差,故本文引進路網密度與居民區道路長度兩個因子與人口分布進行相關性研究。POI是指具有地理標識的空間特征物,包含名稱、類別、經緯度等信息,具有易獲取、現勢性強、數據量豐富、定位精度高、更能反映微觀細節信息等特點(Yao et al,2017),其能夠在一定程度上直觀反映人口的空間分布(Bakillah et al,2014)。

圖3 研究框架示意圖

本文將建筑物數據(m2)、路網密度(m/km2)、居民區道路長度(m)、大廈小區(個)、政府機關(個)、餐飲住宿(個)、購物(個)、交通服務(個)、教育醫療(個)、公共服務(個)、商業機構(個)、文體休閑(個)、觀光旅游(個)、農牧場點數(個)與人口統計(人)數據進行Spearman相關性分析,利用與人口分布相關性較高的因子進行人口空間化建模。在統計學中,Spearman相關性分析是評價2個統計變量相關性的一種指標,其對原始變量的分布不做要求,適用范圍較廣。其主要思想是:分別對2個變量X、Y做等級變換(rank transformation),用等級RX和RY表示; 然后按Pearson相關性分析的方法計算RX和RY的相關性。Spearman相關性分析公式為

(1)

式中,POPi為第i個鄉鎮街道的統計人口數,Aij為第i個鄉鎮街道第j類指標因子的數值,R(POPi)與R(Aij)分別為對應的元素POPi和Aij在各自列向量中的排名,N為鄉鎮街道總數,ρj為第j類因子的數值與鄉鎮街道人口數的Spearman相關系數。經過計算,選擇相關性顯著的因子作為建模因子。

確定建模因子后,采用多元線性回歸分析方法進行人口空間化模型構建。因經濟發展不同,不同行政單元內單位建筑面積的人口數各不相同,為提高建模精度,將人口分布特征較為接近的地區劃分為一類進行分區建模,因模型中的系數具有物理意義,需保證系數為非負數。

采用多元線性回歸模型進行數據擬合,以各建模因子作為回歸分析的自變量,以各鄉鎮統計人口數據作為因變量,將回歸置信度設置為95%,建立回歸方程組公式,即

(2)

式中,Dj為第j類建模因子的回歸系數,bi為方程的截距。在建模時將常數項設置為0,表明人口分布在與其強相關的因子分布的區域,且建立的模型回歸系數應滿足變量的顯著性檢驗(F、T檢驗)。

3 實例驗證

3.1 建模區劃分及相關性分析

建筑物作為人類生產和生活的載體,在很大程度上影響著人口的分布和遷移,可以說人口的分布都是圍繞著建筑物展開的,尤其是居住建筑。因此,利用地理空間技術,以建筑物為離散的載體研究人口的空間化具有重要意義。本文更換了眾多研究中采用的高程、坡度等影響因素,以人們生活的建筑物為載體,實現人口數據的精細空間化。受地理位置、經濟發展等多因素影響,不同地區單位建筑物占地面積、人口密度各不相同,為提高模型構建的精度,對影響因素差異大的區域進行分區,以凸顯影響因子的差異性。本研究以鄉鎮街道為最小研究單元,依據建筑物空間分布、興趣點密集程度、道路密度等進行分區,將研究區分為2個分區。第一類分區為靠近中心城區的街道及城鎮,該類分區興趣點密集,經濟發達。第二類分區以農村居民點為主,農村居民點、興趣點分散在各個鄉鎮。

城鎮建筑物存在較多的多層建筑,且各街道經濟發展水平不同,多層建筑物的數量和樓層數差異也較大。假設人口數量總是對應一定的建筑面積(劉正廉等,2021),以各縣鄉鎮人均建筑物占地面積為基準,對城鎮區域建筑物進行平均樓層數設定,設城鎮街道建筑物占地面積為A1i,平均樓層數設定系數為βi,則城鎮區域建筑物面積為βiA1i,該方法可以使得城鎮人均建筑面積更接近該縣人均建筑面積,滿足人口數量總是對應一定的建筑面積的假設。進而進行基于建筑物空間分布的人口空間化研究。

對第一類分區和第二類分區的樣本數據進行定量分析,統計各鄉鎮街道中各類型興趣點的數量。分別計算第一類、第二類分區各鄉鎮建筑物數據、路網密度、居民區道路長度、大廈小區、政府機關、餐飲住宿、購物、交通服務、教育醫療、公共服務、商業機構、文體休閑、觀光旅游、農牧場點的數量,并與人口統計數據進行Spearman相關性分析。相關性分析結果(表2)顯示,第一類分區中建筑物建筑面積、路網密度、購物、公共服務與人口存在顯著正相關,相關性系數分別為0.967、0.599、0.621、0.657; 第二類分區中建筑物建筑面積、居民區道路長度、政府機關與人口存在顯著正相關,相關性系數分別為0.931、0.746、0.778。將存在顯著相關的因子作為各分區建模因子,對2個分區進行模型構建。

3.2 基于建模因子的多元線性回歸分析

根據各分區建模因子與人口的相關性,采用多元線性回歸分析方法建立不同分區回歸模型。以各分區建模因子數值為自變量,各鄉鎮街道人口數值為因變量,利用公式(2)重新構建多元線性回歸模型。多元線性回歸要求因子間相互獨立,經計算第一分區中購物與公共服務間的Spearman相關系數結果為0.993,存在顯著正相關,購物與公共服務不是相互獨立的因子,均參與回歸會使模型產生多重共線性,故兩者間選擇一個因子進行回歸分析,通常選擇相關性高的因子。本研究中購物、公共服務與人口的相關程度相當,相關系數差僅為0.036,對比兩類POI點的數據量及分布范圍,購物POI數量遠多于公共服務,且分布更廣,能夠更好地指示人口分布,故最終選擇購物因子進行回歸分析。因此,選擇購物、建筑物建筑面積、路網密度三個因子進行第一分區的回歸分析,選擇建筑物建筑面積、居民區道路長度、政府機關三個因子進行第二分區的回歸分析,得到的回歸方程為

第一分區:POPi=0.013βiA1i+0.462A2i+7.183A7i,R2=0.985

(3)

第二分區:POPi=0.013A1i+0.007A3i+32.055A5i,R2=0.984

(4)

式中,A1i為第i個鄉鎮建筑物占地面積,A2i為第i個鄉鎮路網密度,A3i為第i個鄉鎮居民區道路長度,A5i為第i個鄉鎮政府機關數量,A7i為第i個鄉鎮購物點的數量,βi為第一、第二分區中第i個城鎮街道的建筑物建筑面積擬合系數,其中第二分區中設定βi為1。

在95%置信度下,第一分區和第二分區模型具有統計顯著性,且建立的模型回歸系數均滿足變量的顯著性檢驗(F、T檢驗)。

4 人口空間化及精度評價

4.1 人口空間化

人口空間化是將統計數據分布到其對應地理空間上的一個過程。根據分區結果,利用柵格計算方式,將統計人口數據轉換為更能反映人口空間分布的柵格數據,完成人口數據空間化。

柵格大小選擇1km規則格網,首先利用Arcgis軟件中的Creat Fishnet工具創建研究區域內規則格網的矢量數據,用規則格網裁剪研究區建筑物數據、路網數據,統計每個格網內的建筑物占地面積、路網長度、各分類POI點數量等。根據分區方式,將格網數據分為第一分區格網和第二分區格網,分別計算格網內建筑物面積及路網密度,基于式(3)、式(4),計算各分區內每個格網的人口數。對分區人口的初始柵格數據進行拼接,得到整個研究區的人口柵格數據。

4.2 精度評價

將每個格網的模擬人口數匯總到鄉鎮街道行政單元上,采用各鄉鎮街道的空間回歸結果與人口統計數據之間的相對誤差進行精度評價,計算公式為

(5)

式中,μi為第i個鄉鎮街道模擬人口的相對誤差,POP′i為模擬人口數據。計算每個鄉鎮街道模擬人口的相對誤差,結果如表3和圖4所示。

表3 模擬人口相對誤差

圖4 模擬人口相對誤差對比

通過計算,比較各鄉鎮街道的人口模擬值與實際值的偏差情況。由表3和圖4可知,經回歸分析得到的36個行政單元人口相對誤差值中,相對誤差大于20%的鄉鎮為0,大于10%的有2個鄉鎮,其中最大誤差為12.02%;90%以上的鄉鎮其模擬人口相對誤差范圍在10%以內。對人口模擬值和實際值結果進行擬合,得到兩者之間的線性擬合率為0.993,因此本文的模型具有較高的模擬精度。

4.3 基于規則格網的可視化表達

人口空間化將統計數據分布到規則的地理空間格網上,避免了原始統計單元面積大小不一造成的尺度混雜問題。通過小尺度規則格網的可視化表達,可以展示研究區更加精確的人口空間分布情況,結果如圖5所示。

圖5 研究區1km格網人口分布

本研究成果能較好地反映人口的空間分布特征,對于人口分布細節特征的刻畫較為理想。由圖5可知,受地形地貌、交通便利度、經濟等因素的影響,研究區人口空間分布具有明顯的差異性,表現為人口密度由城鎮向鄉村逐漸遞減,城市中心人口密集,沿路網向外輻射,城鎮區域點狀聚集,偏遠鄉村人口較少,沙漠、戈壁、山地等區域人煙稀少,人口密度差異巨大?;诮ㄖ锱cPOI數據的千米格網人口分布符合實際情況,可為災情研判提供可靠的基礎數據。

5 結論

本文基于建筑物空間數據、路網數據、POI數據及人口統計數據,開展人口空間化方法研究,基于Spearman相關分析選取相關性顯著的模型構建因子,采用多元線性回歸分析方法構建研究區人口空間化模型,實現了人口統計數據基于規則格網的更為精確的可視化表達。結果表明:

(1)受區域經濟發展影響,不同區域模型構建的影響因子存在差異,通過對影響因子差異性大的區域進行分區建模,有助于提高模型構建的精度。

(2)Spearman相關分析方法可以快速提取模型構建的影響因子,并保證影響因子與因變量之間的相關性具有顯著性; 第一類分區中提取的模型構建影響因子為建筑物建筑面積、路網密度、購物,其Spearman相關性系數分別為0.967、0.599、0.621,第二類分區中提取的模型構建影響因子為建筑物建筑面積、居民區道路長度、政府機關,其Spearman相關性系數為0.931、0.746、0.778,建模因子均與人口存在顯著正相關。

(3)多元線性回歸分析方法可以對多個影響因子進行回歸建模,將統計人口分布在建模因子分布的地區,建立的模型具有顯著性,精度較高,計算的各鄉鎮街道的人口模擬值與實際值的偏差較小。

(4)通過小尺度規則格網的可視化表達可以展示研究區更加精確的人口空間分布情況。研究區人口分布具有明顯的空間差異,由城鎮向鄉村區域遞減的趨勢明顯,中心城區、周邊城鎮、偏遠鄉鎮之間的人口密度差異巨大。

總的來看,基于建筑物與POI數據的人口空間化方法適用性強,精度較高,人口空間化成果能較好地反映實際人口的空間分布特征,且細節刻畫較為準確,可以為地震應急救援提供決策依據,有利于在救災初期幫助決策者對災情做出正確判斷和評估,提高地震應急救援的時效性。

猜你喜歡
格網分區建筑物
上海實施“分區封控”
鄰近既有建筑物全套管回轉鉆機拔樁技術
實時電離層格網數據精度評估
描寫建筑物的詞語
浪莎 分區而治
基于空間信息格網與BP神經網絡的災損快速評估系統
火柴游戲
基于SAGA聚類分析的無功電壓控制分區
基于多種群遺傳改進FCM的無功/電壓控制分區
建筑物的加固改造與鑒定評估
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合