?

基于機器學習簡化MMPI量表的有效性研究

2021-09-10 07:22孫啟科董問天王克馮超南崔霖李毓明于淏巋于濱石川紀俊
關鍵詞:機器學習

孫啟科 董問天 王克 馮超南 崔霖 李毓明 于淏巋 于濱 石川 紀俊

摘要:針對傳統MMPI量表中題目數量過多,許多應用場景下受試者依從性差的問題,提出使用機器學習算法對MMPI量表中的臨床量表進行簡化的方法,對6種經典機器學習算法的簡化效果進行了比較,并在受試者測評數據上對原始和簡化后測評結果的敏感度與特異度進行了對比分析。實驗結果表明,使用最小絕對收縮和選擇算子(LASSO)的算法在保持相近準確率的同時簡化效果最好,平均減少了37.3%的男性和39.1%的女性受試者題目數量,并且簡化后測評結果的敏感度與特異度仍能保持在原始測評結果的85%,縮短了測評時間,適用于更多的應用場景。

關鍵詞:MMPI;機器學習;量表簡化

中圖分類號:TP181

文獻標志碼:A

收稿日期:2021-01-04

基金項目:

國家自然科學基金(批準號:61503208)資助;山東省自然科學基金(批準號:ZR2015PF002)資助。

通信作者:

石川,男,博士,副教授,主要研究方向為精神分裂癥、抑郁癥及雙相障礙。E-mail:shichuan@bjmu.edu.cn

紀俊,男,博士,講師,主要研究方向為轉化醫學、醫療大數據分析。E-mail:jijun@healai.com

明尼蘇達多項人格測驗(Minnesota Multiphasic Personality Inventory,MMPI)[1]是由明尼蘇達大學教授Hathaway等共同制定的人格檢測量表,在鑒別精神疾病方面有很好的信效度[2-3],并廣泛應用在各個領域。近年來,社會競爭壓力不斷增加,中國精神疾病的患病率明顯上升[4],精神疾病已成為危害中國人民身心健康的重要疾病之一[5] 。因此,一套高效簡捷的人格檢測工具對國民精神疾病篩查非常必要。中國使用的MMPI量表是宋維真翻譯修訂的版本[6],共有566道題目,信息量龐大,患者應用困難,往往要進行分段實施。據統計,青年男性需要42分鐘填寫[7],在體檢場景下測試者依從性較差,難以有耐心全部完成,所以要對原始的MMPI量表進行簡化,在保證結果一致性的前提下盡量減少題目,來提升量表的完成率。目前已有較多MMPI簡化版本,例如MMPI-168[8],心理健康測查表(Psychological Health Inventory,PHI)[9]等,已經被證明其在篩查方面的有效性[10],但這種類型的簡化量表均是采用因子分析法生成固定的簡化版本的量表,篩查過程中無法保證篩查的針對性和全面性。本研究針對前399道題目進行簡化,包括10個臨床量表。采用決策樹的特征選擇將10個題組的題目進行重要性排序,再通過6種經典機器學習算法對10個題組進行建模分析,在保證結果一致性的前提下選出最優簡化量表的算法,確保量表簡化的準確性和全面性。

1 資料與方法

1.1 研究對象來源

數據集來自北京大學第六醫院疑似患有精神類疾病人群,從中抽取7 410名完成399道測評題目的患者。由于性別不同測評標準不同,所以將數據集分為3 144名男性與4 266名女性。由表1,測試者年齡因素對所有臨床測評題組都有統計學意義(p<0.05);性別因素對臨床測評題組Hs(疑?。?、D(抑郁)、Hy(癔?。?、Mf(男女子氣)、Sc(精神分裂)、Ma(輕躁狂)、Si(社會內向)具有統計學意義(p<0.05)。

1.2 機器學習算法

本研究采用最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator,LASSO)[11]、梯度提升回歸樹(Gradient Boosting Regression Tree,GBRT)[12]、邏輯回歸(Logistic Regression,LR)[13]、隨機森林(Random Forest,RF)[14]、線性判別分析(Linear Discriminant Analysis,LDA)[15]、支持向量回歸(Support Vector Regression,SVR)[16]6種經典機器學習算法進行訓練和驗證。

1.3 量表簡化過程

每個題組的題目簡化流程如圖1所示。

(1)計算題目重要性:選擇平均絕對值誤差(Mean Absolute Error,MAE)[17]作為評價指標,根據決策樹的特征選擇將題組內各題目進行重要性排序,并按重要性從大到小調整組內題目作答順序。

(2)機器學習預測建模:首先取測評者前2個題目的答案,選用6種經典機器學習算法訓練模型,自變量是測評者作答題目的答案,因變量是題組得分。預測出題組得分后,根據該題組常模原始分將預測得分篩選陰陽性,得出與真實陰陽性的混淆矩陣,計算出敏感度和特異度,如果敏感度和特異度都大于等于85%或者此時所有題目都用于建立模型,則結束,否則,跳至步驟(3)。

(3)迭代計算:根據重要性由大到小依次向模型中添加題目,重復步驟(2),直至敏感度和特異度均達到85%或該題組內所有題目均做完為止,剩余題目即為題組內刪除的題目。

1.4 評價指標

根據中國常模標準[18],將真實得分與預測得分劃分陰陽性,得到混淆矩陣,題組內預測以敏感度和特異度作為衡量標準。本研究,按重要性由大到小依次向模型中添加題目,當模型的敏感度與特異度均達到85%,題組剩余的題目為需要刪除的題目。

2 結果

通過6種經典機器學習算法預測MMPI量表原有10個題組的敏感度與特異度,如表2、3所示,其中LASSO和LDA算法預測的最精準,均可達到90%以上。男性測試者通過機器學習算法預測10個題組的敏感度與特異度均達到閾值時,采用GBRT、SVR、LASSO、LDA算法簡化后的量表分別只需要做298、264、

250、260道題目。女性測試者通過6種經典機器學習算法預測10個題組的敏感度與特異度均達到閾值時,采用GBRT、SVR、LASSO、LDA算法簡化后的量表分別只需要做292、253、243、250道題目。其中LASSO算法在保證較高的敏感度與特異度的條件下所需要做的題目數量最少。推斷出組內簡化時LASSO算法更可行。通過LASSO算法簡化量表,男性測評者由原來的399道題目優化為250道題目,縮短了37.3%的測評時間,女性測評者由原來的399道題目優化為243道題目,縮短了39.1%的測評時間。

本研究采用克朗巴哈系數(Cronbach's α)[19]計算刪除題目前后的信度變化。如表4所示,4種算法對于男性測試者的Hy、Pd、Mf、Pa、Pt、Sc、Ma、Si題組刪除題目后的信度系數均在0.7以上;Hs、D題組刪除題目后的信度系數均在0.7以下。Hy、Pd、Mf、Pa、Pt、Sc、Ma、Si題組刪除題目前后的信度系數變化范圍在0~0.1之間;Hs、D題組變化超過0.1。如表5所示,4種算法對于女性測試者的Hy、Mf、Pa、Pt、Sc、Ma、Si題組刪除題目后的信度系數均在0.7以上;Hs、D題組刪除題目后的信度系數均在0.7以下;Pd題組通過GBRT算法刪除題目后信度系數大于0.7,其它3種算法信度系數均小于0.7。Hs、Hy、Mf、Pa、Pt、Sc、Ma、Si題組刪除題目前后的信度系數變化范圍在0至0.1之間,D題組變化超過0.1。

3 討論

近些年來,多位學者提出基于機器學習簡化量表的方法,例如用于注意力缺陷多動障礙行為區別的社交反應量表(Social Responsiveness Scale,SRS)[20]和用于自閉癥診斷的自閉癥診斷觀察量表(Autism Diagnostic Observation Schedule,ADOS)[21],中文雙相情感障礙診斷清單(Bipolar Diagnosis Checklist in Chinese, BDCC)[22] 和基于梯度提升回歸樹的癥狀自評量表簡化[23],均是利用機器學習算法分析大量臨床測評數據訓練分類器實現量表簡化,并通過對照簡化前后結果的敏感性和特異性以驗證其一致性。本研究經過題組內的篩選,刪除MMPI部分題組內的題目,達到使用部分題目就能夠較為準確的預測出各個題組陰陽性的目的。但是由于男女子氣量表的陽性數據量不足,機器學習模型無法通過足夠多的陽性數據學習到其中蘊含的關聯性,是的預測結果不夠準確,因此還需要盡量收集更多的陽性數據,來提高簡化量表的準確性。

4 結論

本研究對比6種經典機器學習算法的簡化結果,發現LASSO相對于其他算法預測精度更高,適合于區分高維度和多重共線性的數據,而MMPI量表中的每個量表都有33~78個題目,屬于高維數據,因而適合采用LASSO算法。LASSO算法對異常值的魯棒性強,可以靈活處理各種類型的數據,包括連續值和離散值。在保證組內題目預測的敏感度與特異度相近的情況下,LASSO算法采用的特征數量即題目數量最少、簡化效果最好。簡化后的量表與全量表相比,在保證各題組擁有較高信度和測評結果的敏感度與特異度均達到85%以上的前提下,男性平均減少37.3%的測評時間,女性平均減少39.1%的測評時間。在后續研究中,可以通過收集更多的MMPI測評數據,嘗試其他算法來訓練更精準模型,從而推動基于機器學習在精神科量表簡化研究與應用。

參考文獻

[1] HATHAWAY S R, MCKINLEY J C. A multiphasic personality schedule (minnesota): III. The measurement of symptomatic depression[J]. Journal of Psychology Interdiplinary & Applied, 1942, 14(1):73-84.

[2]紀術茂,陳佩璋,紀亞平,等. MMPI中文版的結構效度研究[J]. 中國臨床心理學雜志, 1996(1):20-23.

[3]鄒義壯,趙傳繹. MMPI臨床診斷效度的研究[J]. 中國心理衛生雜志, 1992(5):211-213+238.

[4]楊文雙,王志仁,張小璐,等.新冠肺炎疫情期間封閉管理醫護人員心理健康狀況[J].精神醫學雜志,2020,33(2):84-87.

[5]陳祉妍, 劉正奎, 祝卓宏,等. 我國心理咨詢與心理治療發展現狀、問題與對策[J]. 中國科學院院刊, 2016, 31(11):1198-1207.

[6]宋維真. 中國人使用明尼蘇達多相個性測驗表的結果分析[J]. 心理學報, 1985(4):346-355.

[7]貢京京,苗丹民,肖瑋,等.青年男性MMPI-215F量表應答時間效應分析[J].中國行為醫學科學,2006(6):534-535.

[8]HOFFMANN T, DANA R H, BOLTON B. Measured acculturation and MMPI-168 performance of native American adults[J]. Journal of Cross Cultural Psychology, 1985,16(2):243-256.

[9]宋維真,莫文彬. 心理健康測查表(PHI)的編制過程[J]. 心理科學, 1992(2):36-40.

[10] NEWMARK C S. Brief synopsis of the utility of MMPI short forms[J]. Journal of Clinical Psychology, 1981,37(1):136-137.

[11] TIBSHIRANI R. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society. Series B (Methodological),1996,58(1):273-282.

[12] 郭銀景,宋先奇,楊蕾,等. 基于梯度提升回歸樹的井下定位算法[J]. 科學技術與工程, 2019,19(8):143-149.

[13] 于立勇,詹捷輝. 基于Logistic回歸分析的違約概率預測研究[J].財經研究,2004(9):15-23.

[14] BREIMAN L. Bagging predictors[J]. Machine Learning, 1996,24(2):123-140.

[15] FISHER R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936,7(2): 179-188.

[16] ALEX J S, BERNHARD S. A tutorial on support vector regression[J]. Statistics & Computing, 2004,14(3):199-222.

[17] WANG W J, LU Y M. Analysis of the mean absolute error (MAE) and the root mean square error (RMSE) in assessing rounding model[J]. IOP Conference Series: Materials Science and Engineering,2018,324(1):1-5.

[18] 夏朝云. MMPI中國常模與精神分裂癥及躁狂癥的診斷[J]. 上海精神醫學, 1992, 4(1):39-41.

[19] 游雅媛. 認知診斷Cronbach's α系數屬性信度點估計和區間估計研究[D]. 南昌:江西師范大學, 2019.

[20] DUDA M, MA R, HABER N, et al. Use of machine learning for behavioral distinction of autism and ADHD[J]. Translational Psychiatry, 2016,6(2):1-3.

[21] WALL D P, KOSMICKI J, DELUCA T F, et al. Use of machine learning to shorten observation-based screening and diagnosis of autism[J]. Translational Psychiatry, 2012,2(4):1-6.

[22] MA Y T, JI J, HUANG Y, et al. Implementing machine learning in bipolar diagnosis in China[J]. Translational Psychiatry, 2019,9(1): 1-7.

[23] 劉金銘,于淏巋,馮超南,等.基于梯度提升回歸樹的癥狀自評量表(SCL-90)簡化[J].青島大學學報(自然科學版),2020,33(2):32-37.

Research on the Validity of Simplifying MMPI Scale Based on Machine Learning

SUN Qi-ke1a, DONG Wen-tian2, WANG Ke3, FENG Chao-nan4, CUI Lin4,

LI Yu-ming4, YU Hao-kui4, YU Bin4, SHI Chuan2, JI Jun1a,1b,4

(1a.College of Computer Science&Technology, b.Medical College,Qingdao University,Qingdao 266071,China;

2.Peking University Sixth Hospital,Beijing 100083,China;3.Qingdao Municipal Hospital,Qingdao 266011,China;

4.Beijing Wanling Pangu Technology Co.,Ltd.,Beijing 100089, China)

Abstract: There are too many questions in the traditional MMPI scale and the subjects' compliance is poor in many application scenarios. A machine learning algorithm is proposed to simplify the clinical scale in the MMPI scale. The simplification effects of six classical machine learning algorithms are compared, and the sensitivity and specificity of the original and simplified evaluation results are compared and analyzed on the subject evaluation data. The experimental results show that the algorithm using the minimum absolute contraction and selection operator (LASSO) has the best simplification effect while keeping similar accuracy to reduce the number of subjects by 37.3% for men and 39.1% for women on average, keep the sensitivity and specificity of the simplified evaluation results at 85% of the original evaluation results, thus shortening the evaluation time and being suitable for more application scenarios.

Keywords:

MMPI; machine learning; shorten scale

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網中“人工智能”的應用
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合