?

基于嶺回歸和主成分回歸的湖南省居民消費水平影響因素分析

2022-05-30 10:48李嘉程
中國集體經濟 2022年21期
關鍵詞:R語言

李嘉程

摘要:基于2005~2020年間湖南省的數據,選取5個影響湖南省居民消費水平的因素,運用R軟件建立多元回歸模型。但這5個影響因素之間本身就會相互影響,導致數據間的多重共線性問題。為了回歸中的多重共線性問題,文章先用特征根判定法進行診斷,再使用嶺回歸模型和主成分回歸模型對其進行修正,最后對這兩個修正模型進行比較分析,得出了嶺回歸模型相對較優的結論。

關鍵詞:嶺回歸;主成分回歸;R語言;居民消費水平

一、引言

中國經濟快速發展,居民消費支出具有突出貢獻,居民消費水平反映了一個國家或一個地區居民的消費水平。對于湖南省這樣的人口大省來說,在30年前提出了“長株潭”經濟區、“五區一廊”的戰略,在2004年中央提出了中部崛起戰略后,湖南省GDP以及人均可支配收入在全國位居前列,2020年提出“三高四新”,湖南省在進入新發展階段順應變局、把握先機?,F伴隨著湖南省靠自身實力在全國占得了一席之地,省內居民消費水平提高較快,消費結構也有了很大的改善,因此對其進行分析有較強的經濟意義。

現已有很多學者對居民消費水平因素做了研究,但很多對居民消費水平影響因素的研究側重于單個模型。關于居民消費水平的預測問題,有學者對此進行了大量研究,也提出了用對應的模型來進行預測,但對回歸模型在實際應用的修正比較分析較少。

現以湖南省2008~2020年5個影響因素數據為例,通過嶺回歸和主成分回歸的方法來解決變量間存在的多重共線性問題,并對應得到兩個模型,進一步比較兩種方法的優缺點,同時分析出對湖南省居民消費水平的重要因素,從而對湖南省經濟發展以及區域經濟提供一定的政策依據。

二、指標選取與數據來源

在現實生活中,影響居民消費的因素很多,但考慮到地區經濟的實際情況、經濟理論和樣本數據的可收集性,選取了2008~2020年湖南省居民消費水平(元)作為被解釋變量,地區生產總值(億元)、城鎮居民可支配收入(元)、農村居民可支配收入(元)、城鎮化率(%)以及居民消費價格指數(%)的年度數據作為解釋變量,本文數據選取歷年的《湖南省統計年鑒》以及中國經濟社會大數據研究平臺國家統計年鑒報告。

地區生產總值GRP是反映一個地區經濟中所生產出的全部最終產品和勞務的價值,常被公認為是衡量地區經濟狀況的最佳指標,地區生產總值GRP高的地區,表明地區的經濟實力強,人民消費水平高;居民可支配收入水平是決定一個國家消費的核心因素,且居民可支配收入分為了城鎮和農村居民可支配收入,消費會隨著收入的增加而增加,居民的購買力也會提高;城鎮化的快速發展是推動社會消費增長的根本動力,同時也是縮短貧富差距的方法,隨著城鎮化率在不斷提升,促進了居民消費;居民消費價格指數是用來反映消費商品及服務價格水平的變動情況,且會導致居民消費的差異化,與人民群眾的生活密切相關,同時在整個國民經濟價格體系中也具有重要地位,其變動率在一定程度上反映通貨膨脹或緊縮的程度。

三、多元線性回歸模型分析

(一)模型設定及變量說明

為了研究影響湖南省居民消費水平因素,本文構建的多元線性回歸模型為:

Y=β01X12X23X34X45X5

其中,Y為被解釋變量,表示居民消費水;、X5為解釋變量,分別表示城鎮化率、城鎮居民可支配收入、農村居民可支配收入、地區生產總值和居民消費價格指數,β0為回歸常;,β5為回歸系數。

根據收集的數據,利用R語言統計軟件進行數據處理,運用最小二乘估計求得各個參數的估計值,得到如下的OLS回歸模型:

Y=233.2x1+1.516x2-1.504x3-0.3106x4+54.61x5-18910

顯著性檢驗結果得到,該模型的相關系數R2=0.9987,由此說明模型對樣本的擬合效果很好;F值為1090,且對應的P值為5.864×1010,表明該回歸模型高度顯著,整體擬合程度很好。由參數估計表可知,x2的t檢驗統計量對應的P<0.05,其他四個變量對Y的影響不顯著。結合上述分析,這些自變量之間存在很大相關性,則考慮出現檢驗效果不顯著可能是存在多重共線性的原因。

(二)多重共線性診斷

考慮OLS回歸模型中可能有多重共線性的存在,現采用常規的特征根判定法,來對樣本數據進行多重共線性的診斷。

現利用R軟件運行計算得出條件數>10,說明解釋變量間存在嚴重的多重共線性。同時,通過計算相關陣X′X的特征向量來找出哪些解釋變量是多重線性的,得出結果如下:

ζ=(4.09531,0.89902,0.00396,0.00145,

0.00026)

明顯看出x*3、x*4*5對應的特征值近似于0,所以認為x*1和x*2間存在多重共線性。當存在多重共線性時,模型的參數估計精準度會大幅度下降,從而使得所得估計值無法從經濟社會角度解釋,進而降低模型的應用價值。

四、主成分回歸和嶺回歸分析

考慮到各因素的量綱(單位)不同,首先需要將原始數據進行標準化處理,這樣就可以消除量綱對模型精度的影響,然后再使用主成分回歸和嶺回歸來對經典回歸模型進行修正,同時來解決解釋變量間的多重共線性問題。

(一)主成分回歸

主成分回歸主要運用到降維思想,在盡量不損失太多信息的情況下利用正交旋轉把多個指標轉化成幾個重要的綜合指標,即主成分,且各個綜合指標之間互不相關,所以用主成分回歸分析能很好地消除多重共線性的影響。

首先對5個解釋變量進行主成分的計算,用R軟件進行計算并輸出相應的計算結果,得出主成分分析的累計貢獻率,見表1:

從表1中可以明顯看出第一個主成分的累計貢獻率為81.906%,已經達到了80%以上,足夠反映出原始指標中大部分信息。為了達到降維的目的,建議只保留第一個主成分。

由上述分析得出:現只需要輸出第一個主成分的得分,且設為Z1,則

Z1=0.492X1+0.492X2+0.492X3+0.491X4-0.178X5

現在用Y對1做最小二乘回歸,得到相關系數R2=0.9887,F統計量值為1047,且主成分的t檢驗統計量P值<0.01,說明該模型的擬合效果很好。該主成分回歸模型如下:

?=0.47206Z1

將Z1代入上述模型,得標準化的主成分回歸方程如下:

?=0.23226X1+0.23226X2+0.23226X3+0.23178X4-0.08403X5

為了方便后期計算和比較,還原為原始數據的主成分回歸方程如下:

?=257.9578X1+0.1592X2+0.37785X3+0.145555X4-315.565X5+23458.36

(二)嶺回歸分析

嶺回歸用于解決多重共線性的有偏估計回歸方法,實質上是一種改良的最小二乘估計,通過放棄最小二乘的無偏性,以損失部分信息和降低精度為代價獲得回歸系數更符合實際、可靠的回歸方法,適用于對病態數據的擬合。

現用R進行嶺回歸分析,其嶺參數k的取值范圍為0-1,步長為0.05,得出21個嶺參數取值對應的嶺跡圖如圖1所示:

從圖1可以看到,當k值較小時,X2的嶺回歸系數的絕對值較大,隨著k的增大又迅速趨于零,所以予以剔除;同時,選擇剔除嶺回歸系數比較穩定且絕對值很小的自變量X5?,F用Y和其余3個自變量重新做一遍嶺回歸,新嶺跡如圖2所示:

由圖2看到,剔除X2和X5后嶺回歸系數變化幅度減,雖然仍為負值,但與剔除X2和X5前-0.311相比負的程度已經較為減小。通過綜合比較發現當k>0.65時,嶺參數的取值基本穩定,所以最終取嶺回歸系數k=0.65,得標準化的嶺回歸方程為:

?=0.3594X*1+0.3237X*3+0.2992X*4

此時對應的未標準化的嶺回歸方程為:

?=399.1703X1+0.52661X3+0.18791X4-14233.74

嶺回歸估計的標準化系數能客觀反映自變量對因變量的影響程度,從標準化的嶺回歸方程可知:城鎮化率(X1)、農村居民可支配收λ(X3)和地區生產總值(X4)與湖南省居民消費水平都呈正相關關系。同時,影響湖南省居民消費水平的主要三個因素的重要性從大到小排序依次是:城鎮化率、農村居民可支配收入、地區生產總值。

(三)模型對比分析

運用主成分回歸模型和嶺回歸模型消除了變量間的多重共線性,通過對比模型檢驗及參數檢驗,選擇較優的模型。主成分回歸模型和嶺回歸模型的對比分析如表2所示。

由表2的結果來看,嶺回歸的RMSE(均方根誤差)較小,說明嶺回歸同真值間的偏差更小,效果較優;但從R2擬合優度來看,主成分回歸的R2值較大,擬合效果較好。AIC和BIC信息準則是衡量統計模型復雜度和擬合優良性的標準,其AIC和BIC值越小的為相對最優模型,所以嶺回歸的模型較優;嶺回歸的平均相對誤差更小,所以其預測效果更好。綜上所述,嶺回歸為相對較優模型。

五、結語

在近些年湖南省穩定經濟增長的前提下,為了順應消費升級趨勢和鼓勵消費新模式、新業態發展,人民政府緊密結合實際經濟情況推出相應對策,進而推動經濟實現質的穩步提升和量的合理增長,繼續保持經濟平穩高效發展。

由回歸結果分析可以看出,現如今湖南省城鄉經濟差距以及收入差距逐漸縮小,由此得出今年湖南在積極推動和完善城鄉發展一體化的工作中取得了一定成效。湖南省作為農業大省,長時間實行城鄉二元分治的體制影響,城鄉一體化實施較晚以及受整體環境影響,目前城鄉發展速度仍然較慢、發展不平衡,導致城鎮化率對居民消費的影響仍較小。雖然,居民消費水平是隨著地區生產總值的增長在提高,并且居民消費率較高,對于經濟貢獻率也較高。但是發展速度較低,消費增勢有降低的趨勢,尤其是現如今新冠疫情的影響。

基于湖南省居民消費水平的實證研究結果和上述問題,本文對湖南省經濟均衡發展提出如下建議:第一,全面推進城鎮化進程。努力健全城鄉一體化的融合機制,加大統籌城鄉發展的力度,加大對農業農村基礎設施的投入,夯實農村城鎮化發展的基礎。第二,提高居民可支配收入。穩步提高居民財產性收入,支持創業就業財稅政策,優化工資分配宏觀調控作用,完善社會保障體系。湖南省為農業大省,政府還應不斷發展現代農業化產業、積極拓寬農民經營性收入渠道和完善補貼政策,提高農民財產收入。第三,加大對外開放力度。進一步完善招商引資政策,加強培養和引入適于經濟發展需求的各類人才。積極擴大外需市場,擴大省內外合作和抓住國際產業加速轉移的契機,不斷拓展新興市場,從而促進湖南對外貿易市場的發展。

參考文獻:

[1]張兆亮.我國居民消費率影響因素探究[J].內蒙古農業大學學報,2010(04):4-12.

[2]陳玲燕.多重共線性下的線性回歸方法綜述[J].市場研究,2008(04):148-152.

[3]郝卉.居民消費水平影響因素的計量分析[J].才智,2011(03):15.

[4]周雨柔.兩種預測模型在居民消費水平預測中的研究與評價[J].中國集體經濟,2017(33):52-54.

[5]劉金宇.中國居民消費水平影響因素的實證分析[J].中國集體經濟,2019(07):17-20.

[6]張玲玲,張予川.消費水平影響因素研究——以武漢市為例[J].區域與城市經濟,2020(12):27-31.

[7]何曉群.應用回歸分析[M].北京:電子工業出版社,2017.

(作者單位:廣西師范大學數學與統計學院)

猜你喜歡
R語言
基于Holt—Winters時間序列的圖書選題預測模型
基于R語言的轎車銷量分析基于R語言的轎車銷量分析
基于R語言時間序列的轎車銷量分析及預測
R語言在統計分析中的使用技巧
基于R語言的學生成績分析
基于GPS軌跡數據進行分析改善城市交通擁擠
基于R語言的Moodle平臺數據挖掘技術的研究
基于R語言的湖南產業結構對其經濟增長貢獻分析
注重統計思維培養與應用為主導的生物統計學課程建設
人民幣匯率的均值回復檢驗及Hurst指數計算
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合