?

基于因子分析的老年人幸福感評估方法研究

2024-04-06 15:27趙玉航
黑龍江科學 2024年5期
關鍵詞:方差幸福感變量

趙玉航

[中國石油大學(華東)理學院,山東 青島 266555]

0 引言

隨著我國經濟的穩步增長,人們生活水平不斷提高,“幸?!币辉~漸漸出現在大眾視野。幸福是人們對生活滿意程度的一種主觀感受,這種主觀的幸福感是衡量人們生活質量的綜合性心理指標。幸福指數則在數字上反映了人們的生活狀況與發展需求,是衡量主觀幸福感具體程度的主觀指標數值,是用于評估老年人是否健康的核心標準之一[1]。我國65歲以上老年人口數目不斷增加,給我國社會與勞動力市場帶來新的挑戰。老年人的幸福水平直接反映了一個國家的經濟水平與社會福祉,如何提升老年人的幸福感已成為研究熱點。

自20世紀70年代以來,世界人口老齡化速度逐漸加快,我國成功實施計劃生育,衛生保健事業不斷進步,并將積極應對人口老齡化納入國家戰略,生育率、病死率不斷下降且人均壽命不斷增加。第四次中國城鄉老年人生活狀況抽樣調查結果顯示,60.8%的老年人“感到幸?!?比2000年的48.8%提升了12%。從城鄉差值來看,城鎮老年人口“感到幸?!钡谋壤秊?8.1%,比2000年的66.2%提升了1.9%,農村老年人口“感到幸?!钡谋壤秊?3.1%[2]。但由于高齡及無勞動能力、無經濟來源等問題的存在,老年人的健康狀況與生活質量依然需要引起關注,如何提升老年人的幸福指數與評估老年人是否幸福仍是公共衛生研究領域的熱點話題。

從現有文獻來看,測量老年人幸福感的研究工具有十余種,大多是引自國外的量表,或直接使用,或經修訂后使用,調研方式以結構化問卷為主。測量工具對老年人幸福感的全面了解與把握越來越準確,能夠通過人格、社會及其他情景間的交互關系測量與評估幸福感。目前,學界較知名且認可度較高的幸福感測量方法是經驗取樣法,但其實施成本高,測量誤差較大[3]。Kahneman 等提出昔日再現法,將日記重現改為生活事件回顧表,提高了調查表的信度與效度,并能在一定程度上減輕了被試人員的負擔,在方法上更加科學有效[4、5]。劉國珍等在總結梳理幸福含義的基礎上,區分形成幸福的四種測量范式,包括生活質量幸福測量、情緒狀態幸福測量、自我完善幸福測量與日常體驗幸福測量,說明了各種測量范式下主要的測量工具與方法[6]。朱雅麗等從經濟保障、健康狀況、生活照料與精神慰藉四個維度構建幸福感評價指標體系[7]。

大多數研究從定性的角度進行分析,并沒有數據佐證,也沒有從定量的角度利用統計學方法對老年人幸福感進行研究。采用因子分析法,可以從變量群中提取共性因子,在眾多變量中找出隱藏的具有代表性的因子,將相同本質的變量歸入一個因子,減少變量的數目,檢驗變量間關系的假設。以2018—2019年老年健康影響因素調查數據為依據,利用因子分析法對老年人幸福指數進行定量分析,通過累計方差貢獻率對提取的因子進行加權得到綜合得分,構建老年人幸福指數,以期實現對“幸?!边@一模糊名詞的定量處理。

1 數據來源及處理

數據來自中國老年健康影響因素跟蹤調查社區數據集,其由北京大學“中國老年健康影響因素跟蹤調查”課題組在1998—2014年跟蹤調查的基礎上,通過查詢國內公開發行的各類統計年鑒及數據庫,搜集整理中國老年健康影響因素跟蹤調查樣本所覆蓋的全國23個省市自治區860多個縣、縣級市或區的社會經濟、醫療與老齡服務、空氣污染與其他環境污染等社區信息得到的,是與個體微觀跟蹤調查數據有機整合的社區中觀數據,能夠為政策研究提供可靠的數據支持。

選取2018—2019年老年健康影響因素調查數據,共計15874個樣本量,17個特征變量信息,具體的特征變量信息如表1所示。

表1 變量信息Tab.1 Variable information

采用調查問卷的方式進行數據收集,極易出現調查對象漏填的情況,故特征變量不可避免會出現數據缺失。變量e62 (子女照顧情況) 的缺失比例為70.85%,表明該變量大部分數據是缺失的,不能進行后續的統計分析與建模,故剔除該變量。其余變量中,e67(子女一周照顧時間) 的缺失比例為24.13%,占比最大。有9個特征變量缺失值占比在10%以下,b11(自認生活狀況)的缺失比例最小,為0.86%。詳見圖1。

圖1 特征變量數據缺失占比Fig.1 Proportion of missing feature variable data

采用KNN算法填補缺失值。KNN算法又稱為近鄰分類算法(k-nearest neighbor classification),是一種廣泛使用的缺失值插補方法,其本質是通過距離測量識別相鄰點,通常相鄰點具有近似的數據特征。在機器學習中,通過在訓練集中找到與該實例最鄰近的k個樣本點,利用k個相似樣本點間的數據特征估計缺失的特征數據。在KNN算法中,兩樣本點間距離度量一般采用歐式距離,公式如下:

(1)

將歐式距離相近的歸為一類,最后劃分為K個類。對于數值型數據,取同一類的平均數填補缺失值。對于分類型數據,取同一類的眾數填充缺失值。通過python中的KNNImputer模塊對數據集進行缺失值填充,最終共處理缺失值30 001個。

2 算法實現

2.1 操作步驟

1)確定待分析的原有若干變量是否適合進行因子分析。一般的正交因子模型為:

(2)

轉換為矩陣形式為:

(3)

因子分析是從眾多的原始變量中重構少數幾個具有代表意義的因子變量的過程,其潛在的要求為原有變量間要具有較強的相關性。故需先進行相關性分析,計算原始變量間的相關系數矩陣。在進行原始變量的相關分析之前,需對輸入的原始數據進行標準化計算。

相關系數的值介于-1與1之間,即-1≤r≤1,其性質如下:

當r>0時,表示兩變量正相關,r<0時,兩變量為負相關。

當|r|=1時,表示兩變量為完全線性相關,即為函數關系。

當r=0時,表示兩變量間無線性相關關系。

當0<|r|<1時,表示兩變量存在一定程度的線性相關。且|r|越接近1,兩變量間線性關系越密切,|r|越接近于0,表示兩變量的線性相關關系越弱。

一般可按三級劃分:|r|<0.4為低度線性相關,0.4≤|r|<0.7為顯著性相關,0.7≤|r|<1為高度線性相關。

2)構造因子變量。因子分析中有很多確定因子變量的方法,如基于主成分模型的主成分分析與基于因子分析模型的主軸因子法、極大似然法、最小二乘法等,前者應用最為廣泛。

主成分分析法通過坐標變換將原始變量作線性變化,轉換為另一組不相關的變量(主成分)。求相關系數矩陣的特征根λi(λ1>λ2>…>λp>0)與相應的標準正交的特征向量li,根據相關系數矩陣的特征根,即公共因子Fi的方差貢獻(等于因子載荷矩陣A中第j列各元素的平方和),計算公共因子Fi的方差貢獻率CV與累積貢獻率CVC。公式如下:

(4)

(5)

根據因子的累積方差貢獻率來確定公因子個數,一般取累積貢獻率大于85%的特征值所對應的第一、第二、…、第m(m≤p)個主成分。

3) 因子變量的命名解釋。因子變量的命名解釋是因子分析的另一個核心問題,在實際應用分析中,主要通過對因子載荷矩陣進行分析得到因子變量與原有變量間的關系,從而對新的因子變量進行命名。有時因子載荷矩陣的解釋性不好,需進行因子旋轉,使原有因子變量更具有可解釋性。因子旋轉的主要方法有正交旋轉與斜交旋轉,方差最大正交旋轉最為常用,基本思想是使公共因子的相對負荷的方差之和最大,且保持原公共因子的正交性與公共方差總和不變??墒姑總€因子上具有最大載荷的變量數最小,故可簡化對因子的解釋。

4) 計算因子變量得分。因子變量確定后,為確定因子得分,即樣本數據在不同因子上的具體數據值,采用回歸法、Bartlette法等進行計算。計算因子得分應首先將因子變量表示為原始變量的線性組合。即:

(6)

2.2 評定標準

1)KMO檢驗。KMO檢驗是抽樣適合性檢驗,對原始變量間的簡相關系數與偏相關系數的相對大小進行檢驗。計算公式為:

(7)

若原始數據中確實存在公共因子,則各變量間的偏相關系數應該很小,這時,KMO的值接近于1,原數據適用于因子分析。在實際分析中,KMO統計量大于0.7可視為效果比較好。

2)Bartlett’s球狀檢驗。Bartlett’s球狀檢驗用于檢驗相關陣中各變量間的相關性,是否為單位陣,即檢驗各個變量是否各自獨立。Bartlett’s球形檢驗判斷中,若相關陣是單位陣,則各變量獨立因子分析法無效。當P值小于0.05時說明符合標準,數據呈球形分布,各變量在一定程度上相互獨立。

(8)

其中,

(9)

3 研究結果

由于所選數據指標受量綱大小的影響,首先要對數據進行標準化處理,基于python進行因子分析建模。

3.1 熱力圖

熱力圖能夠體現各變量間的相關關系。f651a2.1與f651a2 變量的相關系數為1,f651a1.1與f651a1變量的相關系數為1,b12與b11存在高度相關關系。相關系數矩陣為奇異矩陣,無法求出特征值與特征向量??紤]剔除f651a1.1、f651a2.1與b11強相關變量構造相關系數矩陣,見圖2。

圖2 修改變量后的相關系數矩陣Fig.2 Correlation coefficient matrix after modifying variables

3.2 相關系數測算

本研究中KMO值為0.8434233,說明適合做因子分析。且Bartlett’s檢驗P值小于0.05,即變量間存在顯著的相關性。詳見表2。

表2 KMO與Bartlett’s的檢驗結果Tab.2 KMO and Bartlett’s test results

3.3 因子分析

前四個公共因子方差貢獻率為0.8903,大于0.85,說明其可以解釋大部分變量,故選取四個公共因子作為影響因素,詳見表3。

表3 方差貢獻率Tab.3 Variance contribution rate

子女經濟來源變量與醫療費用變量在factor 1上載荷較大,這些變量與經濟相關,故命名為經濟因子指數。是否精力充沛、自認健康狀況與睡眠時間在factor 2上載荷較大,這些變量與個人的身體健康相關,故命名為健康因子。同居人數、住房類型、子女照顧情況等變量在factor 3上載荷較大,這些變量與老年人的生活息息相關,故命名為生活因子。社區服務種類與是否參加社會活動在factor 4上載荷數較大,這些變量與社會服務相關,故命名為社會因子[12]。詳見表4、表5。

表4 因子旋轉矩陣Tab.4 Factor rotation matrix

表5 因子命名與特征變量Tab.5 Factor naming and feature variables

3.4 老年人幸福指數的搭建

四個公共因子的方差貢獻率分別為:0.283930、0.236206、0.214108與0.200771,對樣本的因子得分進行加權平均,得到老年人幸福指數的測量模型:

老年人幸福指數=0.283930×樣本經濟因子+0.236206×樣本健康因子+0.214108×樣本生活因子+0.200771×樣本生活因子

對最后的綜合指數進行指數化處理,將得分取值壓縮到[0,100],得到的部分老年人幸福指數,詳見表6。

表6 部分老年人幸福指數Tab.6 Part of the elderly happiness index

4 結論

基于北京大學“中國老年健康影響因素跟蹤調查”課題組2018—2019年的問卷調查數據,使用KNN填充法進行數據填補,無法完全反映各老年人的真實情況。且因子分析是一種常用的降維方法,選取4個公共因子不可避免會導致一些信息的損失。后續研究可考慮使用主成分分析與LDA相關方法。

猜你喜歡
方差幸福感變量
方差怎么算
7件小事,讓你下班后更有幸福感
概率與統計(2)——離散型隨機變量的期望與方差
抓住不變量解題
也談分離變量
奉獻、互助和封禁已轉變我們的“幸福感”
計算方差用哪個公式
七件事提高中年幸福感
方差生活秀
SL(3,3n)和SU(3,3n)的第一Cartan不變量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合