?

基于矩陣填充的大型問卷調查數據缺失插補

2023-09-25 01:10高海燕李唯欣牛成英
關鍵詞:方差準確率比例

高海燕,李唯欣,牛成英

(蘭州財經大學 統計學院,甘肅 蘭州 730020)

隨著信息技術的發展,調查研究的媒介和手段也在不斷發生改變。近年來,網絡調查的興起,為調查研究收集數據提供了便利,借助互聯網收集問卷調查數據的比例增加。但幾乎所有的大型問卷都不可避免地面臨數據缺失的問題。例如,應答者無應答導致缺失、涉及隱私時人為處理導致缺失、文件丟失和記錄不當使得數據在統計和處理階段出現缺失、問卷過長導致應答者厭答等[1]。調查中的項目出現無應答和無效應答都會影響數據分析的質量和最終決策的準確性。因此,對問卷調查缺失數據進行插補預處理是十分重要的。

目前,針對大型問卷調查缺失數據的處理,學者們提出了一些插補方法。例如,趙雪慧[2]利用問卷分割的技術思路,將大型問卷分割成若干小型問卷,然后利用常規的多重插補方法對缺失數據進行處理。楊貴軍等[3]提出一種擇優回歸插補方法,通過對目標變量和輔助變量之間的相關性進行分析來選取輔助變量。王霄等[4]利用聚類和排列組合等方法處理問卷,采用隨機發放的策略進行數據采集,并運用多重插補對問卷采集過程中造成的數據缺失進行處理。Assmann等[5]提出一種基于貝葉斯估計的數據修復方法并應用在背景調查數據中。Kaplan等[6]對問卷數據進行了三種不同方式的抽樣,相較于不同的插補方法,不同的抽樣方式對減小偏差的影響更大。

矩陣填充(Matrix Completion,MC)方法作為一種處理和分析高維數據的新技術,當目標矩陣具有低秩或近似低秩性時,可以對存在大規模缺失的矩陣進行比較準確的填充,且已被廣泛應用于信號處理、推薦系統、圖像聚類、圖像視頻修復和視頻背景建模等諸多研究領域。馮栩等[7]提出一種基于隨機矩陣奇異值分解(Singular Value Decomposition,SVD)的奇異值閾值算法(Singular Value Thresholding,SVT),并通過對彩色圖像和電影評分進行修復得到,該方法不僅有較好的數據預測效果,同時也大幅度縮短了時間。臧芳[8]利用低秩矩陣填充技術對真實氣象數據進行仿真實驗,通過對評價指標的計算證明該方法能較好地恢復氣象數據。潘偉等[9]提出一種基于低秩矩陣填充技術的推薦算法,該方法在預測用戶評分上具有良好的精度,能夠進一步提高算法的性能。Gu等[10]研究了加權核范數極小化問題,利用圖像的非局部自相似性,將該算法應用于圖像去噪。Berg等[11]提出一種圖卷積矩陣填充(GC-MC)模型,并通過在Douban、YahooMusic等多個數據集上進行實驗分析,說明了該模型可以充分利用數據的輔助信息,具有較高的準確性。Bao等[12]提出一種基于SVT的矩陣補全技術。

MC方法將矩陣的秩作為一種稀疏測度,從有缺失的高維數據中探索本征低維空間,進而利用獲得的本征低維空間來有效地修復缺失數據。因此,在滿足某些條件下,大型調查問卷中的數據缺失插補問題可視為MC問題。如果數據的缺失機制是MAR(Missing At Random,MAR),那么插補結果將大大減少項目無應答和無效應答帶來的偏差。因此,本文采用基于SVT算法的MC方法處理大型問卷調查數據中的缺失插補問題,并與熱卡填充、K-近鄰、鏈式方程多重插補、線性插值等四種常用插補方法進行對比。分析結果表明,MC方法插補效果較好,通過插補預處理可為大型問卷調查提供較為可靠的完備數據集,從而提高數據分析的質量和最終決策的準確性。

1 矩陣填充方法介紹

在MC問題中,首先假設數據間存在相關性,真實矩陣可以由低秩矩陣逼近,在此基礎上,通過如下優化問題來實現MC[13]

(1)

其中,X∈m×n是修復后的低秩矩陣,M∈m×n為只觀測到部分元素的待填充矩陣。Ω是觀測到的元素對應位置(i,j)的集合,即若矩陣M中的元素Mij被觀測到,則有(i,j)∈Ω.

由于式(1)的求解是NP-hard的[14],因此將通過求解矩陣核范數最小化問題近似恢復原始矩陣[15],并采用SVT算法。依據拉格朗日乘子定理,通過軟閾值算子對迭代矩陣進行SVD,利用梯度下降方法構造迭代更新公式。以此來求解MC問題

(2)

它是矩陣在觀測矩陣上的投影,即用0替換X的缺失值,只留下可觀測值。進一步,式(2)可轉化為優化問題

(3)

對于式(3),設秩為r的矩陣X的SVD為

X=U∑VT

其中,∑=diag(σ1,…,σr)是對角矩陣,σi是正奇異值,U∈m×r,V∈n×r是列正交矩陣,并且rank(Xm×n)=r

Sλ(X)=UDλ(∑)VT

其中,Dλ(∑)=diag((σ1-λ)+,(σ2-λ)+,…,(σr-λ)+),(x)+=max(x,0)表示取正部。

給定參數λ>0和初始值Y0=0,求解式(3)的迭代公式如下

(4)

其中,δk(k∈+)是正的標量步長序列,k為當前迭代次數。

表1 基于SVT算法的MC方法求解過程

2 數據介紹與分析

2.1 數據介紹

本文選用中國國家調查數據庫(CNSDA)發布的2015年網民社會意識調查數據的最終版。該調查由南開大學馬得勇教授主持并負責具體實施。此次調查采用網絡調查方式,調查時間主要集中在2015年7~8月,調查設定每個IP地址只能應答一次問卷,避免重復答題,并且剔除了答題時間小于7~8分鐘的問卷,共得到涉及110個量表項目的3 781條記錄。在此,選取其中包含58個量表項目的2 581條完整數據進行實驗分析。

研究表明,問卷調查數據缺失屬于完全隨機缺失(Missing Completely At Random,MCAR)或非隨機缺失(Missing Not At Random,MNAR)的情況并非常態,因而其大多屬于隨機缺失(Missing At Random,MAR)[16]?;趩柧碚{查缺失數據是MAR的假定,本文將采用隨機缺失的方式對大型問卷調查數據進行不同比例的缺失處理。

2.2 大型問卷調查量表數據特征分析

運用MC方法重構矩陣必須滿足兩個基本假設:低秩性和相關性。假定要恢復的矩陣是低秩的或近似低秩的,即這個矩陣是有信息冗余的,其數據分布在一個低維的線性子空間上,這為大型矩陣缺失數據插補提供了理論上的可能性。另外,MC方法對元素采樣的合理性提出要求,一般要求滿足均勻采樣的方式。

對于問卷調查,以應答者為行,設置項目為列,將構成一個含有項目無應答和無效應答的數據矩陣,即是一個不完整、含有缺失元素的“稀疏矩陣”。同時,問卷設計的項目與項目之間、應答者看待問題的態度及認知之間都具有一定的關聯性,給出的項目應答是相似的,也就是說由問卷調查數據構成的大型稀疏矩陣具有低秩性特征,抽樣調查數據相對來說分布合理。因此,大型問卷調查缺失數據插補問題可視為一個MC問題,適合用MC方法實現插補。

3 實例分析

3.1 數據隨機缺失處理

本次具體選取包含58個量表項目的2 581條完整數據進行隨機缺失處理,從而得到缺失數據矩陣。這些量表類問卷項目具有6個選項,分別標記為1至6.為了避免隨機刪除時造成同類型項目集中缺失的現象,我們事先根據調查內容的相似程度對58個量表項目進行了調整排序。針對上述完整數據集,分別隨機刪除5%、10%、20%、40%、50%的數據,后續采用五種不同的插補方法對缺失值進行預測,并通過不同的指標比較插補效果。不同缺失比例下數據的分布情況如圖1所示。例如,從圖1(a)中可以看出,對于缺失5%的數據集,在58個量表項目中缺失最多的前5個項目是Q20_R9、Q29_R10、Q20_R7、Q29_R8和Q19_R8,其中缺失最多的Q20_R9,在154條數據中存在缺失。并且在不同的缺失比例下,缺失最多的前5個項目也不相同。

(a) 隨機缺失5%數據集

3.2 數據插補結果

本節將MC方法與熱卡填充(Hot Deck Imputation,Hot Deck)[17]、K-近鄰(K-Nearest Neighbor,KNN)[18]、鏈式方程多重插補(Multivariate Imputation of Chained Equations,MICE)[19]和線性插值等四種具有代表性的插補方法進行了比較。實驗通過R語言來實現。

針對不同比例隨機缺失的數據集,采用上述五種方法對大型問卷調查數據進行實踐性的插補,由于插補后的某些數據帶有小數并存在一些數據大于6的情況,不符合問卷調查數據的現實要求,故將帶有小數的數據進行四舍五入,并將大于6的數據取為6.經過調整后的數據統計描述如表2所示。其中標準方差=插補后方差/完整數據方差*100[20].

表2 基于五種不同方法的插補后數據統計描述

從表2中可以看出,通過KNN插補得到的數據,方差隨著缺失比例的增大而增大;通過Hot Deck和MICE插補得到的數據,無論在何種缺失比例下,方差基本不變;而通過MC方法和線性插值得到的數據,方差隨著缺失比例的增大而減小,但線性插值的方差下降幅度較小。相比而言,MC方法更適合解決大規模缺失數據插補時存在的偏差問題,使方差估計更有效。

3.3 指標比較與統計分析

采用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square error,RMSE)作為插補評價指標,從插補誤差角度對五種方法的插補效果進行比較。

表3 基于五種不同算法的數據插補效果統計分析

從表3中可以看出,無論在何種缺失比例下,MC方法的插補準確率均接近50%,當缺失比例為10%時,準確率最高,為48.69%;與MC方法準確率較為接近的是MICE,但其插補誤差較大;而Hot Deck雖然有隨著缺失比例升高,準確率較為穩定的特點,但準確率較低,基本維持在31%左右;KNN在缺失比例低時,插補效果較好,而當缺失比例增加到20%以上時,準確率有明顯的下降趨勢;線性插值無論在何種缺失比例下,都不具有較好的插補效果。同時,結合MAE和RMSE可以看出,在任何缺失比例下,MC方法都具有較小的插補誤差、具備更好的插補效果,明顯優于其他缺失數據處理方法。因此,MC方法的綜合表現更好。因此,在對大型問卷調查缺失數據進行處理時,MC方法的精度明顯高于對比方法,具有良好的適用性。

4 結論

大型問卷調查數據中存在缺失是較常見的數據質量問題。應答者在應答大型問卷時由于調查項目較多、問題表述不準確或問題難度大等原因而影響應答者對調查項目的認知,導致無回答或誤答,從而影響問卷數據的質量。本文著眼于大型問卷調查缺失數據的插補問題,MC方法能夠借助低秩或近似低秩矩陣的已知元素合理準確地恢復出該矩陣的其他未知元素。因此,可以將缺失數據插補問題看作MC問題,并利用低秩矩陣恢復技術解決該問題。實例分析表明,在不同缺失比例下,與其他四種方法相比,MC方法都具有較高的插補準確率和較低的插補誤差,有助于進一步提高數據質量。MC方法為大型問卷的大規模隨機缺失修復提供了一種新的處理思路。

猜你喜歡
方差準確率比例
方差怎么算
概率與統計(2)——離散型隨機變量的期望與方差
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
人體比例知多少
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
計算方差用哪個公式
高速公路車牌識別標識站準確率驗證法
方差生活秀
按事故責任比例賠付
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合