?

基于嶺回歸的工資預測模型

2019-12-24 05:46
新營銷 2019年8期
關鍵詞:共線性回歸系數回歸方程

(西安財經大學統計學院 陜西 西安 710100)

一、引言

工資是勞動者勞動收入的主要組成部分,是GDP核算的重要依據之一,它可以用來衡量和反應收入、分配與勞動力發展水平。有效進行工資預測,為勞動經濟決策提供依據,對研究勞動經濟發展趨勢有重要意義。

隨著線性回歸模型的應用越來越廣泛,已經有研究開始注意到線性回歸模型的穩定性這個問題。特別是當模型中的變量是線性相關時,它違背了線性回歸模型的基本假設。如何修改這些假設以滿足基本假設成為解決多重共線性問題的關鍵。通用解會丟失變量提供的有用信息,降低模型的解釋度,從而影響模型的應用價值。不同嶺回歸方法,該方法是給保持無偏的,有用的信息模型變量的估計,具有較小的平均平方誤差獲得的模型參數,從而穩定模型參數以改善模型的解釋這個問題的能力。嶺回歸是解決數據共線性這種病態特征的有效方法,是最小二乘法的改進,估計的參數能真正反映自變量與因變量之間的客觀聯系,在一些領域獲得了成功應用。

二、工資預測的嶺回歸模型

(一)變量的抽象過程

隨著我國綜合實力日益增強,我國居民的工資水平也在不斷提高,影響工資的因素有很多,需要多個方面進行說明。本文以工資為模型的內生變量Y,選取了受教育年限X1、居住區域X2、性別X3、工作經驗X4、是否為工會成員X5、每小時工資X6、年齡X7、種族X8、職業類型X9、工作部門X10為模型的外生變量。

(二)模型的建立

根據已經選取的10個外生變量對模型的內生變量工資進行回歸,來建立線性回歸模型

Y=β0+β1X1+β2X2+…+β10X10+ε

(1)

(三)模型的診斷

對模型(1)進行進一步分析。首先對已有數據進行標準化,去除量綱對回歸方程所帶來的影響。用SPSS軟件運行并輸出結果。其中第一列為嶺參數k,軟件默認值k從0~1,步長為0.05,共有21個k值。第二列是決定系數R2,第3~12列是標準化嶺回歸系數,其中第一行k=0的數值就是普通最小二乘估計的標準化回歸系數。

通過觀察圖1、圖2,發現變量X6、變量X7、變量X9、變量X10是共線的且比較穩定,因此我們決定剔除這三個變量,用Y與其余自變量做嶺回歸。

圖1 嶺跡圖

圖2 相關系數與嶺回歸參數的關系

(四)模型的改進

通過上面的分析,我們把嶺參數步長改為0.02,范圍減小到0.2。再用SPSS軟件對剔除后的變量做嶺回歸。

圖3 嶺跡圖

圖4 相關系數與嶺回歸參數的關系

由SPSS結果發現R2在k=0.04到k=0.06之間發生比較大的變動,從0.269 11變到0.268 35,因而可以選取嶺參數k=0.05。然后定k=0.05,重新做嶺回歸。

計算結果如表1所示。

表1 Ridge Regression with k=0.05

表2 ANOVA table

表3 Variables in the Equation

得到Y對X1,X2,X3,X4,X5,X8的標準化嶺回歸方程為

未標準化的嶺回歸方程為

三、結論

本文通過對因變量工資水平與十一個自變量的相關系數矩陣,用SPSS軟件畫出嶺跡圖,通過分析嶺跡圖剔除影響較小的幾個因素,對剔除變量后的數據重新做嶺回歸,并改變步長,從而確定k值,然后用軟件做出模型結果。

由于在實際社會經濟中的數據具有很強的相關性,在回歸過程中時很可能出現多重共線性問題,通過共線性分析得到預測變量具有很強的共線性。因此,本文采用嶺估計方法消除了預測變量間的共線性,得到了更加穩定的回歸系數估計值,根據建立的嶺回歸預測模型可以預測出新的樣本的工資水平,且模型通過了驗證。

猜你喜歡
共線性回歸系數回歸方程
采用直線回歸方程預測桑癭蚊防治適期
銀行不良貸款額影響因素分析
文氏圖在計量統計類課程教學中的應用
——以多重共線性內容為例
走進回歸分析,讓回歸方程不再是你高考的絆腳石
不完全多重共線性定義存在的問題及其修正建議
多元線性回歸的估值漂移及其判定方法
電導法協同Logistic方程進行6種蘋果砧木抗寒性的比較
多元線性模型中回歸系數矩陣的可估函數和協方差陣的同時Bayes估計及優良性
診斷復共線性的特征分析法及其在GEO定軌中的應用
On Commuting Graph of Group Ring ZnS3?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合