?

基于貝葉斯結構時間序列模型的海南省人口預測研究

2024-04-14 04:54郝文琪曹莉
現代信息科技 2024年2期
關鍵詞:海南省預測

郝文琪 曹莉

DOI:10.19850/j.cnki.2096-4706.2024.02.026

收稿日期:2023-06-15

基金項目:海南省高等學校教育教學改革研究項目(Hnjg2022-61);海南醫學院教育科研重點項目(HYZD202113);海南省大學生創新課題(S202111810001)

摘? 要:通過分析2003—2022年的人口數據,深入了解海南省的人口現狀,并預測常住人口總量。數據源于《海南省統計年鑒》,采用折線圖、人口金字塔圖等對海南省2003—2022年人口現狀進行描述,并應用貝葉斯結構時間序列模型對未來三年的常住人口數進行預測。經過分析和預測,結果顯示,貝葉斯結構時間序列模型的均方根誤差為2.914、平均絕對百分比誤差為0.002<10、決定系數為0.986。2023—2025年海南省常住人口總數分別為1 042.34萬人、1 054.56萬人、1 066.76萬人。說明貝葉斯結構時間序列模型應用于海南省常住人口預測的效果較好,海南省常住人口數量仍會持續緩慢上升。

關鍵詞:海南??;常住人口數;預測;貝葉斯結構時間序列模型

中圖分類號:TP391? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2024)02-0124-04

Research on Population Prediction of Hainan Province Based on Bayesian Structure Time Series Model

HAO Wenqi, CAO Li

(International School of Public Health and One Health, Hainan Medical University, Haikou? 571199, China)

Abstract: This paper gains insight into the current demographic situation of Hainan Province and predicts the total resident population by analyzing the population data from 2003 to 2022. The data is from Statistical Yearbook of Hainan Province, and this paper uses line chart and population pyramid map to describe the current demographic situation of Hainan Province from 2003 to 2022, and a Bayesian Structural Time Series model is applied to predict the total resident population for the next three years. After analysis and prediction, the results show that the Bayesian Structural Time Series model has a root mean square error of 2.914, a mean absolute percentage error of 0.002 which is less than 10, and a coefficient of determination of 0.986. The total resident population of Hainan Province from 2023 to 2025 is 10 423 400, 10 545 600, and 10 667 600, respectively. It shows that the Bayesian Structural Time Series model is effective in predicting the resident population of Hainan Province, and the number of resident population in Hainan Province will continue to rise slowly.

Keywords: Hainan Province; annual permanent population; prediction; Bayesian Structure Time Series model

0? 引? 言

全國第七次人口普查數據顯示,我國人口呈現出一些令人擔憂的現象和趨勢,如人口增長速度放緩、60歲以上人口所占比例逐年增加、男女比例失調嚴重、生育率越來越低以及由此導致的少子化現象逐漸加劇[1]。海南是中國最大的經濟特區,也是唯一的熱帶島嶼省份。隨著國家對海南的戰略定位和政策支持,海南的經濟、社會、文化等各個領域都取得了快速發展,而人口總量在其中發揮著不可小覷的力量[2],因此,人口問題的研究對于海南省的可持續發展具有深遠的意義。所以本文以海南省2003—2022年常住人口數為基礎,運用貝葉斯結構時間序列模型對海南省未來三年常住人口數進行預測,該模型適合于對不確定性序列的分析,對數據有自適應能力,可以重復利用實驗數據,并防止過度擬合。

1? 資料與方法

1.1? 數據來源

根據海南省統計局官網發布的《海南省統計年鑒》獲得海南省2003—2021年常住人口數據;2022年常住人口數據從海南省統計局人口(社科)處獲得。

1.2? 統計分析

采用折線圖、人口金字塔圖對海南省人口發展現狀進行分析;采用貝葉斯結構時間序列模型對海南省常住人口數預測。采用R4.2.2統計軟件分析。

1.3? 貝葉斯結構時間序列模型

貝葉斯結構時間序列模型(Bayesian Structural Time Series model),簡稱BSTS模型。模型如下:

(1)

(2)

(3)

(4)

其中式(1)是觀測方程,該公式將潛狀態αt與觀測狀態yt聯系起來,式(2)是狀態方程,將每個內部狀態與每個先前的內部狀態聯系起來。yt是狀態的線性組合加上協變量X的線性回歸以及遵循零均值正態分布的測量噪聲ε,Z、T、G和R是包含已知值(0和1)的矩陣。εt和ηt是高斯誤差項[3]。

建立模型的具體步驟如下:

1)獲取數據:從海南省《統計年鑒》收集海南省2003—2022年常住人口總數。

2)選擇2003—2011年的數據為觀測時間序列,2012—2022年數據為預測時間序列,構建貝葉斯結構時間序列模型,在該過程中,用spike-slab回歸[4]做回歸變量選擇和計算回歸系數。

3)查看該模型后驗概率p值;若p小于等于0.05,模型收斂,進行步驟(4);如果p大于0.05,模型不收斂,可以通過以下3種方式進行調整:增大MCMC次數[5];將數據進行log轉換;改變控制因素。

4)利用均方根誤差[6]、平均絕對百分比誤差[7]、決定系數[8]對該模型進行擬合效果的評估。

5)利用貝葉斯模型平均法[9]預測未來三年海南省常住人口總數。

2? 結果

2.1? 海南人口總量及其變化趨勢

從圖1中看出,2003—2022年期間,海南省常住人口發生了顯著變化。自2003年以來,海南省常住人口呈現出持續增長的趨勢,但增長速度逐漸放緩。2003年時,海南省常住人口總數為810.52萬人,2010年,常住人口增長至868.55萬人,7年增長了58.03萬人;到2022年末,常住人口總量為1 027.02萬人,較2010年增加了158.47萬人,這十余年,是海南省常住人口的顯著增長時期;此外,與2021年末的1 020.46萬人相比,增加6.56萬人,增長率為0.64%;未來海南省的人口總量仍呈現增長態勢。

2.2? 海南人口年齡金字塔

人口金字塔是當前國際上分析人口結構的常用方法。圖2、圖3是根據海南省第六、七次人口普查數據,利用統計軟件R4.2.2繪出海南省人口金字塔圖(5歲組)。

對比兩次人口普查的結果,可以發現,海南省老年人口所占比例顯著提高[10],且女性數量遠大于男性;新出生人口數量減少,但新生人口男女比例趨于均衡,從第六次人口普查到第七次人口普查,新出生人口(0歲)性別比從1.25下降至1.22,海南省65歲及以上人口比例由8.07%增長至10.43%,老齡人口所占比例越來越大,且稍高于全國平均水平。隨著人口老齡化的加劇,海南省人口年齡結構已經發生明顯變化。

2.3? 貝葉斯結構時間序列模型的應用預測

2.3.1? 模型擬合

國務院于2010年1月4日發布了《國務院關于推進海南國際旅游島建設發展的若干意見》[11],國際旅游島建設進入正常的推進階段,對海南省的常住人口總量也產生了巨大影響。2010—2011、2011—2012年人口增長20萬左右,其余年份均在10萬左右,于是本文將2011年作為政策實施的干預因素的干預時間點,構建貝葉斯結構時間序列模型。

利用2003—2011年數據作為觀測時間序列,2012—2022年的數據作為預測時間序列,馬爾科夫鏈蒙特卡羅抽樣(MCMC)次數設置為1 000次,建立貝葉斯結構時間序列模型,結果如圖4所示。

圖4中,豎向灰色虛線為觀測時間段和預測時間段的分割線,第一個面板(“原始”系列與預期的系列)黑色實線為海南省2003—2022實際年末常住人口數,藍色虛線為狀態空間模型預測的海南省2003—2023年常住人口數,即如果沒有“海南國際旅游島政策”干預時的年末常住人口,藍色區域為預測值的置信區間。第二個面板(“點效應”,即原始序列和預測序列之間的差異)中藍色虛線為政策上線前后的效果,即虛線=政策實施后的實際人口數-若未實施該政策時的預測人口數,藍色區域為(實際值-預測值)的置信區間。第三張圖(“累積”效應)中藍色虛線表示政策實施后(實際值-預測值)的累計和,累計和逐漸增加,表明該政策有明顯的正向作用。

圖4中結果表明,隨著國務院建設海南旅游島相關政策的出臺,海南省的旅游業得到了快速發展,吸引了大量的“候鳥人群”來到海南,對海南省的人口變化產生了影響[12]。從2010—2011年、2011—2012年海南省的常住人口增長了約20萬,而在2010年之前和2012年之后,人口增長均在10萬左右。這表明,在旅游業的發展和政策的推動下,這兩年海南省的人口呈現出了明顯的增勢。

2012—2022年期間,常住總人口的實際平均值約為971萬人,貝葉斯結構時間序列模型預測的平均值為939萬人,95%的置信區間為[911, 969]萬人。該模型對于2012—2022年海南省常住人口數的擬合結果具有統計學意義,而不太可能是由于隨機波動造成的,偶然獲得這種效應的概率很?。╬ = 0.022<0.05),模型后驗分布收斂,結果可信。

表1給出了2012—2022年海南省常住人口的實際數據和擬合數據,可以看出,常住人口數總體呈現逐年上升趨勢,擬合值整體上低于實際值,相對誤差均在3%上下波動,海南省常住人口預測比較可靠。但可以發現隨著時間的推移,預測的絕對誤差(實際值-預測值)越來越大,預測精確度降低。

模型的均方根誤差RMSE = 2.914;平均絕對百分比誤差MAPE = 0.002<10,預測非常精準[13];R2 = SSR / SSyy = 0.986,接近于1,擬合效果很好。

綜上所述,該模型擬合效果較好,結果可靠,表明該模型可以用于海南省人口預測。

2.3.2? 模型預測

經過上面檢驗,說明該模型擬合效果好,可以利用該模型預測海南省未來三年(2023—2025)常住人口數。此次,選擇2003—2022年的數據作為控制時間序列,2023—2025年的數據作為預測時間序列,MCMC抽樣次數設置為1 000次,建立貝葉斯結構時間序列模型,結果如圖5所示。

圖5中,豎向灰色虛線為控制時間序列和響應時間序列的分割線,黑色實線為海南省2003—2022實際常住人口數,藍色虛線表示在沒有政策干預時,采用該模型預測的海南省2023—2025年常住人口數,藍色區域為預測值的置信區間。2023—2025年常住總人口的平均預測值為1 055萬人。預測的95%的置信區間為[1 014, 1 097]萬人。且p = 0.001,小于0.05,有統計學意義,模型收斂,預測結果可靠。

表2給出了利用該模型預測的2023—2025年海南省常住人口預測值,以及95%的置信區間。由貝葉斯結構時間序列模型得出2023年海南省總人口預測數為1 042.34萬人,2024年海南省總人口將達到

1 054.56萬人,2025年海南省人口將達到1 066.76萬人,呈現逐漸上升趨勢。

3? 結? 論

隨著海南國際旅游島和自貿港建設等因素的推進以及單獨二孩、全面二孩、人才引進等政策的實施,海南省常住人口逐年增加,出生人口性別比逐漸趨于平衡。本文在對海南常住人口現狀進行基本了解的基礎上,利用貝葉斯結構時間序列模型對海南省未來人口總量進行了預測。

第一,海南省的總人口量仍將持續緩慢上升。2003—2010年,海南省常住人口增加58.03萬人,增長率為7.16%,逐年增長率在1%上下波動。2010年以來,由于國家出臺一系列政策,如海南省國際旅游島的建設、單獨二孩、全面二孩政策的實施,以及海南省自由貿易港的建設等政策,使得海南省常住人口迅速增長,在2010—2022的十三年期間,海南省常住人口增加了158.47萬,增長率為18.25%;但逐年增長率下降,從2010—2011年的2.42%下降至2021—2022年的0.64%。全國人口總量呈現負增長趨勢,2021—2022年,全國人口數同比下降6‰,而海南省常住人口仍呈現增長態勢,2021到2022一年間,增長6.56萬人。本文預測結果也顯示,未來幾年,海南省常住人口數仍有望進一步增長,且逐年增長率在1%上下波動,這為海南省未來發展提供了有力保障。

第二,人口年齡結構是人口結構中的重要部分,對研究一個地區的社會、經濟發展具有重要意義。第六次人口金字塔圖第七次人口金字塔圖清楚的展示了海南省從2010年到2020年的人口年齡結構變化。2010年時,人口金字塔整體上呈現棗核型結構,兩頭窄,中間寬,基本上屬于穩定型;2020年,人口金字塔塔底及中間部分明顯變窄,塔頂部分變寬,人口結構逐漸向著縮減型的趨勢發展。與2010年全國第六次人口普查相比,新生人口數量(0歲)下降,15~59歲人口的比重下降3.51%,60歲及以上人口的比重上升3.32%,65歲及以上人口的比重上升2.36%,這組數據反映了少子化和老齡化現象。

第三,本文基于2003—2022年常住人口數據和貝葉斯結構時間序列模型,對2023—2025年海南省常住人口總數進行預測。從預測結果看海南省人口將是一個持續緩慢增長的過程,到2025年,海南省人口將達到1 066.76萬人。有關研究顯示,如果以每年人均糧食消費按400公斤計算,海南可以承載1 216萬以上的人口;而2007—2016年海南省農產品年均能量、蛋白質和脂肪可支持的平均人口規模分別為

1 243.47萬、1 697.84萬和2 712.91萬。

本文僅對海南省總人口數據進行預測分析,尚未考慮相關因素的影響作用;其次,人口數據均為年度數據,無法獲得更小時間跨度的數據,可能對模型預測精度產生一定的影響;今后,隨著統計學與機器學習的快速發展,還可以采用更多、更準確的預測模型對人口數據進行分析。

參考文獻:

[1] 申少鐵.推進優化生育政策落實落地 [N].人民日報,2022-01-21(12).

[2] 厲克奧博,李稻葵,吳舒鈺.人口數量下降會導致經濟增長放緩嗎?——中國人力資源總量和經濟長期增長潛力研究 [J].人口研究,2022,46(6):23-40.

[3] SCOTT S L,VARIAN H R. Predicting the present with Bayesian structural time series [J].International Journal of Mathematical Modelling and Numerical Optimisation,2014,5(1/2):4-23.

[4] GEORGE E,MCCULLOCH R. Approaches for Bayesian variable selection,Statist [J].Sinica,1997,7:339-373.

[5] 李雪利,羅建男,劉勇.不同建議分布MCMC算法在地下水污染源反演識別中的對比研究 [J].中國環境科學,2023,43(4):1646-1654.

[6] 唐欣,喬俊皓.多元統計分析在區域經濟發展中的預測研究 [J].中國儲運,2021(2):161-162.

[7] 馮興.新疆烏魯木齊市布魯氏菌病預測與控制研究 [D].烏魯木齊:新疆醫科大學,2020.

[8] 彭露.基于經驗建模校正的決定系數 [D].南京:南京郵電大學,2021.

[9] DAVID M,RAFTERY A E. Model Selection and Accounting for Model Uncertainty in Graphical Models Using Occams Window [J].Journal of the American Statistical Association,1994,89(428):1535-1546.

[10] 海南省統計局 海南省第七次全國人口普查領導小組辦公室.海南省第七次全國人口普查公報(第四號)[N].海南日報,2021-05-14(A8).

[11] 國務院.國務院關于推進海南國際旅游島建設發展的若干意見 [N].海南日報,2010-01-05(A1).

[12] 王頔.海南省候鳥社區建設的問題分析與對策建議 [J].法制與社會,2021(12):129-131.

[13] 劉進進,周平,溫亮.高爐鐵水質量均方根誤差概率加權集成學習建模 [J].控制理論與應用,2020,37(5):987-998.

作者簡介:郝文琪(2001—),女,漢族,河北邯鄲人,本科,研究方向:應用統計學;曹莉(1971—),女,漢族,遼寧昌圖人,教授,博士,研究方向:統計方法應用。

猜你喜歡
海南省預測
無可預測
海南省華僑商業學校
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
不可預測
2010 年秋季熱帶低壓引發海南省特大暴雨特征分析
不必預測未來,只需把握現在
海南省腫瘤醫院
是海南省還是海南島?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合