?

基于元學習優化隨機森林算法的區域經濟預測

2023-02-02 07:51李佳穎
南通職業大學學報 2023年4期
關鍵詞:誤差率生產總值森林

李佳穎,吳 迪

(1. 廣州南洋理工職業學院 經濟管理學院, 廣州 510540; 2. 哈爾濱工程大學 計算機科學與技術學院, 哈爾濱 541004;3. 齊齊哈爾大學 計算機與控制工程學院, 黑龍江 齊齊哈爾 161006)

0 引 言

區域經濟是國民經濟結構中不可或缺的部分。由于產業結構、勞動力規模、改革水平等因素不同[1],區域經濟發展呈現較大差異。一般而言,通過對區域不同行業經濟指標的預測及量化分析,可助力該區域針對產業行業發展情況制定相應的經濟發展策略。實現區域經濟多指標的準確預測,離不開預測算法的支持[2]。機器學習作為解決非線性復雜問題的常用方法,被廣泛應用于經濟預測研究,故基于機器學習技術的經濟預測算法成為研究熱點。吳峰等[3]將雙流長短期記憶(Long short term memory,LSTM)算法應用于標普500 指數趨勢預測,準確率較高,但僅完成了宏觀經濟的單指標預測,未能就其他經濟指標的預測性能進行分析。高振斌等[4]采用支持向量回歸(Support vector regression,SVR)算法進行區域經濟預測,并借助最小二乘法遺傳算法(Partial least squares genetic algorithm,PLS-GA)對SVR 進行優化,取得了較高的預測準確度。但PLS、SVR 等技術通常需要大量的計算,而引入GA 算法進行優化,又可能進一步增加計算復雜性,導致模型訓練和優化耗時長,預測效率較低。相對于深度學習模型(如LSTM)和一些復雜的核方法(如SVR),隨機森林算法的使用和調整更簡便,其默認參數在處理各種問題時均表現良好,且可通過調整決策樹參數進行優化。因此,本文將隨機森林算法應用于區域經濟多指標預測,并借助元學習算法對投票權重進行優化,以降低隨機森林算法應對不同規模經濟樣本多指標預測的誤差率。

1 元學習算法數學描述

元學習(Meta-Learning)算法是一種機器學習方法,旨在使機器學習模型能自動學習如何適應和泛化到新任務上。模型無關元學習(Model-Agnostic Meta-Learning,MAML)算法是元學習中的一種經典算法,其核心思想是通過優化模型的初始化參數,使模型能更快地適應新任務,并在少量樣本的情況下也能取得較好的效果。MAML 具有通用性,在小樣本學習、遷移學習和自適應學習等領域具有潛在的應用前景。

θi在上進行評估,則MAML 的目標函數為[6]

其中,? 表示適用于所有任務的參數。

MAML 通過兩個循環獲得權重優化結果,令θi,0=θ,則第i 個任務的j 步內循環權重的更新方式為[7]

MAML 本質是通過尋找θ,發現適用于新任務的? 值,對損失函數進行最大似然估計得[8]

根據式(8)求出θ,獲得MAML 優化模型。

2 元學習優化隨機森林算法的經濟預測

2.1 隨機森林算法描述

隨機森林作為機器學習算法之一,在復雜問題預測研究中具備較強的適用性。下面對其數學方法進行描述。

設集合S 包含m 個類別Ci(i = 1,2,…,m),其中Ci類的樣本個數為si,s 為樣本總數,k 為樣本的特征總數。

求解所有樣本期望熵[10],

再計算樣本特征A 的期望熵[6],

式中,k 是特征總數,sij表示類別i 第j 維特征,有

根據式(9)與(10),計算A 的熵增益[11]G(A),

接著計算熵增益率[12]G′(A),

由k 棵決策樹h1(x),h2(x),…,hk(x)組成的隨機森林中,特征X 和Y 的邊緣函數為ma(X,Y)[13],

其中,I(·)是轉換函數[14],Y 與N 為正負類別,avk(·)是均值計算函數。

2.2 區域經濟預測指標

進行區域經濟預測時,區域經濟特征的有效提取對預測準確度影響較大。而影響區域經濟發展的耦合指標較多,在分析前若不進行去耦合操作,勢必提升預測復雜度,影響預測精度和效率。參閱多篇文獻,并借助主成分分析法,提取區域經濟預測指標如表1。

表1 區域經濟預測指標

2.3 元學習優化隨機森林算法的經濟預測流程

隨機森林的投票權重對其預測精度影響顯著,若設置不當,將會影響區域經濟預測精度。手動調整的方法缺點較多,因此考慮采用算法自動調整策略[15]。在投票權重數較少時,采用一般優化算法對其進行優化,因樣本數量少,可能導致優化精度不理想。作為小樣本分析的經典方法[16],MAML 通過任務樣本可以有效提高隨機森林權重的優化精度。因此,在采用隨機森林算法進行區域經濟預測基礎上,借助元學習算法降低經濟指標預測誤差,以增強隨機森林算法的預測適用性,流程如圖1 所示。

圖1 元學習優化隨機森林算法的區域經濟預測流程

3 區域經濟預測實例仿真

為驗證元學習優化的隨機森林算法在區域經濟預測中的性能,選取某市5 個區2003—2022年的經濟數據作為研究對象,進行區域經濟預測,經濟數據來源于該市統計年鑒。首先,分別采用隨機森林算法和元學習優化隨機森林算法對經濟樣本進行訓練,繪制區域生產總值的訓練擬合圖并計算擬合誤差,同時采用最優模型對2020—2022年該市的生產總值進行測試樣本預測,并分析元學習對隨機森林算法的經濟預測結果帶來的影響。接著采用隨機森林算法和元學習優化隨機森林算法分別對該市不同區的經濟指標進行預測仿真,驗證算法對小規模區域經濟樣本的預測性能。

3.1 不同經濟指標的預測性能

3.1.1 生產總值預測

分別采用隨機森林算法和元學習優化隨機森林算法對2003—2019 年的該市所有區域生產總值進行訓練仿真,結果如圖2 所示。

圖2 區域生產總值預測結果

從圖2 可知,將元學習優化隨機森林算法用于該市2003—2019 年的區域生產總值訓練,大部分年度的訓練結果曲線與實際生產總值曲線重合度高;而隨機森林算法僅在2004—2008 年的擬合度高,其他年份的訓練結果均出現一定偏差,但整體偏差并不大。這表明隨機森林算法在區域生產總值指標的預測性能方面具有較高適應性。

采用2003—2019 年訓練得到的優化預測模型對2020—2022 年的測試樣本進行生產總值預測,統計結果如表2、表3。

表2 隨機森林算法對生產總值的預測

表3 元學習優化隨機森林算法對生產總值的預測

對于實際生產總值指標預測,隨機森林算法在2022 年的預測誤差率最低,為5.08%,在2021 年的誤差率最高,為6.79 %;而元學習優化隨機森林算法在2021 年預測誤差率最低,為2.18 %,在2022 年的誤差率最高,為2.89%。元學習優化隨機森林算法對2020—2022 年區域生產總值的預測誤差率,相比隨機森林算法分別下降了63.27%、67.89 %、43.11 %。兩種算法對比結果表明,元學習優化隨機森林算法表現出顯著優勢,隨機森林投票權重經元學習優化后,求解精度顯著提高。

3.1.2 月進口總額增長率預測

分別采用隨機森林算法和元學習優化隨機森林算法對該市2022 年度的月進口總額增長率進行預測,結果如圖3 所示。

圖3 2022 年度月進口總額增長率預測性能

由圖3 可知,元學習優化隨機森林算法的預測性能較好,僅在3 月和7 月出現較大偏差,其他月份預測準確度均較高;隨機森林算法的預測效果欠佳,僅在2 月誤差較小,其他月份誤差較大,特別是4 月、6 月和9 月,偏離實際值較大;在9月,元學習優化隨機森林算法的預測誤差率較隨機森林算法降低約86 %。

3.1.3 居民消費價格指數預測

分別采用隨機森林算法和元學習優化隨機森林算法對該市2022 年度12 個月的居民消費價格指數進行預測,結果如圖4。由圖4 可知,兩種算法對該市2022 年度12 個月的消費價格指數預測結果均有一定偏差,但元學習優化的隨機森林算法相較于隨機森林算法,其預測結果的波動明顯更小。

圖4 2022 年度居民消費價格指數預測性能

3.2 不同區域的預測性能

為了進一步驗證元學習優化的隨機森林算法在不同區域的預測性能,分別對該市5 個區的主要經濟指標進行預測仿真。選取2020—2022 年的生產總值和消費價格指數進行預測,結果如表4和表5。

表4 不同區域的生產總值預測結果

表5 不同區域的居民消費價格指數預測結果

從表4 知,對比該市5 個區的生產總值,元學習優化隨機森林算法預測誤差率均不高,其中2022 年度C 區的生產總值預測誤差率最低,僅為0.061 54 %,最高的是2020 年度B 區預測誤差率,為3.630 %。該市5 個區產業結構與經濟發展特色均有較大差異,而元學習優化的隨機森林算法在對這5 個差異較大的經濟樣本集預測時,均表現出較準確的預測結果,表明本文算法在微觀樣本的經濟預測中仍表現出較穩定的預測性能。

表5 給出了元學習優化的隨機森林算法對5個區的居民消費價格指數預測情況。其中,預測準確度最高的為D 區2021 年度消費價格指數,預測誤差率僅為0.195 9 %,預測誤差率最高的發生在2020 年度的A 區,其誤差率為0.689 7 %??傮w而言,本文算法對5 個區的消費價格指數預測準確度均較高。

4 結 語

將隨機森林機器學習算法與元學習優化方法相結合,應用于區域經濟常用指標預測,獲得了較高的預測準確率。本文的應用仿真主要完成了對市和區的中等規模樣本量的經濟預測,取得了較好效果。后續將對本文算法應用于更大規模量的數據樣本預測多個經濟指標進行研究,驗證算法預測性能,同時將更多的機器學習算法與元學習方法相結合,不斷測試多種方法相結合的區域經濟預測性能,找到適合不同規模樣本的經濟預測算法,以增強機器學習算法在區域經濟預測中的適用性。

猜你喜歡
誤差率生產總值森林
2020年河北省國內生產總值
2019年河北省國內生產總值
生化檢驗全程中質量控制管理方式及應用意義
降低評吸人員單料煙感官評分誤差率探討
什么將取代國內生產總值?
本地生產總值
無線傳感器網絡定位算法在環境監測中的應用研究
哈Q森林
哈Q森林
哈Q森林
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合