?

基于Bootstrap和Bagging時間序列模型的黑龍江老齡人口預測

2021-07-19 00:45張敬信秦蔚瑤羅志坤
理論與創新 2021年6期
關鍵詞:時間序列

張敬信 秦蔚瑤 羅志坤

【摘? 要】黑龍江省自2005年進入人口老齡化階段并且人口老齡化趨勢越來越嚴重,由此產生的影響需要全社會為此做出相應的措施。本文搜集黑龍江省1982年~2019年的65歲及以上老年人口數據,分別用常規指數平滑模型ETS(A,A,N)和基于Bootstrap和Bagging的ETS(A,A,N)模型,對老齡人口變化規律進行建模,預測黑龍江省未來5年老齡化人口數,并從提高生育率和減少人口流失兩個視角題出了緩解黑龍江人口老齡化問題的建議。

【關鍵詞】Bootstrap;Bagging,;時間序列;指數平滑法;老齡人口

引言

全國第七次人口普查數據表明,我國60歲以上人口占人口總數的13.50%,人口老齡化程度進一步加深。面對我國人口老齡化這一不可逆轉的過程,黨和政府高度重視,《“十四五”規劃綱要》提出,我國要實施積極應對人口老齡化戰略,完善公共服務體系,促進人口長期均衡發展。近年來,有很多文章研究人口老齡化問題。黑龍江自2005年進入人口老齡化社會,雖晚于全國時間,但老齡化速度非???。在此背景下,明確黑龍江人口老齡化趨勢,對政策和計劃的制定具有前瞻性意義。

Bootstrap法也稱為自助重抽樣,其基本思想是:樣本是從總體中隨機抽取的,則包含總體的全部信息,那么不妨就把該樣本視為”總體”,進行多次有放回抽樣生成一系列經驗樣本,再對每個經驗樣本計算統計量,就可以得到統計量的分布,進而用于統計推斷??梢宰C明,在初始樣本量足夠大且是從總體中隨機抽取的情況下,自助重抽樣能夠無偏接近總體的分布。

時間序列數據可用于預測未來值的數據有限,預測精度很受影響。借助Bootstrap法,可以模擬出很多個具有相似分布的時間序列數據,分別在各個時間序列數據上進行建模并得到多個預測結果,再將多個預測結果按集成學習中的Bagging法合成,得到最終預測,將有效地提高時間序列模型的預測準確性。

Bagging也稱為“裝袋法”是機器學習的集成學習的一種常用策略,是用“有放回”抽樣方式(即Bootstrap法)抽取訓練集,對于包含個樣本的訓練集,進行次有放回的隨機抽樣操作,得到樣本子集(有重復)中有接近36.8%的樣本沒有被抽到。按照同樣的方式重復進行,就可以采集到個包含個樣本的數據集,從而訓練出個基學習器。最終對這個基學習器的輸出進行結合,分類問題就采用“多數決”,回歸問題就采用“取平均”。比如隨機森林就是自助重抽樣若干個子樣本,訓練多棵CART樹,將多個預測結果做“多數決/取平均”得到最終預測,模型性能比CART樹有顯著的提升。

本文嘗試將上述Bootstrap和Bagging思想用于時間序列模型。

1.基于Bootstrap和Bagging時間序列模型

經典的時間序列模型包括:確定性分解(STL)、指數平滑法(ETS)、ARIMA。

按Bootstrap法生成多個相似的時間序列數據,適合結合STL法來用。STL法認為時間序列是受不同影響因素共同影響的疊加效果,故非平穩時間序列可按下式確定性因素進行分解:

其中,為原始時間序列,為趨勢部分,為季節部分、為剩余部分。

先對剩余部分進行重洗牌(shuffled)得到自助的剩余序列,因為STL剩余序列中可能存在自相關性,所以不能使用普通的Bootstrap,而是采用“分塊Bootstrap”,即不是隨機抽樣單個值,而是隨機抽樣時間序列的連續片段,再合并到一起,這樣就會保持原來的短期依賴結構。這樣得到的Bootstrap剩余序列加上趨勢部分和季節部分,再做反向變換就得到與原始時間序列相似的模擬序列。

圖1展示了Bootstrap時間序列的一種常用做法分塊Bootstrap,需要說明的是,本文并不是直接對原時間序列,而是對其分解的剩余部分做分塊Bootstrap.

基于Bootstrap法得到的模擬時間序列,一種用途是提高預測準確性。具體來說,是采用Bagging法思想:從每個時間序列生成預測,并對得到的預測求平均,作為最終預測。這與簡單地直接用原始時間序列得到預測相比,可以獲得更好的預測。

每個時間序列預測采用指數平滑法建模,指數平滑法包含很多種類,fpp3包中的ETS()函數能夠根據AICc值(小樣本偏差做修正的AIC,評估模型好壞的指標)自動選擇最優的指數平滑模型,對于本文的老齡人口數據,選出的最優模型是帶加法誤差的Holt線性趨勢模型ETS(A,A,N):

其中,表示時刻的序列水平,表示時刻的斜率,為平滑系數,

綜上,基于Bootstrap和Bagging時間序列模型的算法步驟:

(1)用原始時間序列生成個Bootstrap模擬時間序列

(2)對每個模擬時間序列,分別用ETS(A,A,N)模型建模,得到預測

(3)按Bagging法取平均得到最終預測

2.實證分析

本文使用最新4.1.0版本的R語言軟件和專門做時間序列分析的fpp3包(0.4.0)實現。

從《黑龍江統計年鑒》獲取1986-2019年黑龍江省的總人口和老齡人口數據(65歲及以上人口數),并計算老齡人口占比,繪制點線圖。

由圖2可見,黑龍江省的老齡人口和老齡人口占比基本相似的具有明顯的逐年上升趨勢。2019年黑龍江省老齡人口占比已達到13.75%, 并且沒有放緩的趨勢,老齡化問題是非常嚴峻的。

2.1常規指數平滑預測:ETS(A,A,N)模型

先只對原始時間序列自動ETS建模,R代碼:

運行結果表明,自動選擇ETS(A,A,N)模型,模型的AICc值=270.7287;模型光滑參數估計值; 初始狀態值, 預測方差. 帶入(2)式就可以得到該時間序列的預測過程:

2.2基于Bootstrap和Bagging的ETS(A,A,N)模型

先用Bootstrap法生成模擬時間序列。以老齡人口數據作為原始時間序列數據,用tsibble()函數創建為年度時間序列對象,再用model()+STL()函數做STL分解,下面給出其圖形展示(圖3):

圖3的上子圖是原始時間序列,中子圖是趨勢序列,下子圖是剩余序列。注意,未包含季節序列,因為原始時間序列沒有周期性。

接下來,用generate()函數實現“分塊塊Bootstrap法”生成多個自助抽樣時間序列,需要提供模擬次數和塊長度,并用new_data參數傳入原始序列以保持相同時間索引。以塊長度為4生成10個抽樣時間序列為例,可視化模擬效果(圖4):

黑色曲線是原始時間序列,彩色曲線是模擬的時間序列。本文原始時間序列比較平滑,若原始序列有較多的波動,模擬序列也能很好地模擬相應的波動。

本文采用上述Bootstrap法模擬100個時間序列:

df_stl = model(df, stl = STL(old))? ?# 先做STL分解

set.seed(123)? ? ? ? ? ? ? ? ? ?# 讓抽樣結果可重現

sim = df_stl %>%

generate(new_data = df, times = 100,

bootstrap_block_size = 4) %>%

select(-.model, -old)

接著對這100個模擬序列分別擬合ETS模型,并預測未來5年老齡人口:

ets_forecasts = sim %>%

model(ets = ETS(.sim)) %>%

forecast(h = 5)

得到的結果是未來5年每一年都有100個預測值。

根據Bagging法,對各組100個預測值取平均,得到最終預測:

summarise(ets_forecasts, pre = mean(.mean))

并可視化預測結果(代碼略)

圖5中藍色線為常規ETS(A,A,N)模型預測,紅色線為基于Bootstrap和Bagging的ETS(A,A,N)模型預測,藍色陰影區域為95%和80%置信區間。兩種預測方法的結果如表1所示:

3.政策建議

通過對黑龍江省老齡化人口進行實證分析,構建常規指數平滑模型ETS(A,A,N)和基于Bootstrap和Bagging的ETS(A,A,N)模型預測未來5年黑龍江人口老齡化趨勢,預測結果表明:未來5年,黑龍江人口老齡化程度將進一步加深,65歲老年人口數將持續穩定上升。

基于此,結合我國基本國情和黑龍江省具體情況,本文提出以下建議:

(1)適度提高生育率,避免產生勞動力短缺。人口老齡化不斷加深會造成勞動力供給不足,而適當提高生育水平有助于緩解這一局面。我國已實行“放開二孩”

政策,據此進一步增強政策包容性,推動生育政策與經濟社會銜接,可促進政策潛力的釋放,改善人口結構,消除人口老齡化帶來的負面影響。

(2)充分發揮本地人力資本,避免人口流失。黑龍江省經濟發展環境使得人才逐漸流失,適齡勞動力的流失和老年勞動資源的不足,又進一步阻礙了黑龍江省的經濟發展。因此,一方面可借鑒發達國家經驗,實行彈性退休機制,鼓勵退休老人再就業,有效利用老年人力資本;另一方面制定符合本省的人才福利政策,優化產業結構,吸引人才回流,充分發揮人力資本對經濟增長的促進作用。(通訊作者:張敬信)

參考文獻

[1]王曉峰,張正云.東北地區人力資本問題及其對經濟發展的長期影響研究[J].經濟縱橫,2016(01):60-64.

[2]都陽,封永剛.人口快速老齡化對經濟增長的沖擊[J].經濟研究,2021,56(02):71-88.

[3]杜鵬,李龍.新時代中國人口老齡化長期趨勢預測[J].中國人民大學學報,2021,35(01):96-109.

[4]敖榮軍,常亮.基于結構方程模型的中國縣域人口老齡化影響機制[J].地理學報,2020,75(08):1572-1584.

[5]張芳,孟昭為.Bootstrap法對時間序列問題預測區間的修正[J].山東理工大學學報(自然科學版),2010,24(04):12-14.

[6]徐繼偉,楊云.集成學習方法:研究綜述[J].云南大學學報(自然科學版),2018,40(06):1082-1092.

[7]Hyndman, R.J., & Athanasopoulos, G. (2021) Forecasting: principles and practice, 3rd edition, OTexts: Melbourne, Australia. OTexts.com/fpp3.

基金項目:黑龍江省哲學社科青年項目:全面二孩政策對黑龍江省人口的影響及對策研究,項目編號:17TJC134

作者簡介:

通訊作者:張敬信(1982-),男,河北保定人,哈爾濱商業大學基礎科學學院副教授,基礎數學博士,研究方向為數學模型、數據挖掘、人口就業等。

秦蔚瑤(1998-),女,漢族,山西晉城人,研究生,應用統計碩士,研究方向為應用統計。

羅志坤(1984-),男,河南周口人,哈爾濱商業大學基礎科學學院講師,基礎數學博士,研究方向為數學模型、商業經濟等。

猜你喜歡
時間序列
基于分布式架構的時間序列局部相似檢測算法
基于嵌入式向量和循環神經網絡的用戶行為預測方法
醫學時間序列中混沌現象的初步研究
基于時間序列分析南京市二手房的定價模型
基于Eviews上證綜合指數預測
上證綜指收益率的影響因素分析
基于指數平滑的電站設備故障時間序列預測研究
基于時間序列的我國人均GDP分析與預測
基于線性散列索引的時間序列查詢方法研究
基于組合模型的能源需求預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合