?

基于機器學習的中醫體質分類研究

2024-01-24 11:06潘康寧王洪杰于霞孫萬晨
中國醫療設備 2024年1期
關鍵詞:原穴偏頗特征選擇

潘康寧,王洪杰,于霞,孫萬晨

1.威海市婦幼保健院 a.醫療設備科;b.超聲二科,山東 威海 264200;2.威海市胸科醫院 醫務科,山東 威海 264200

引言

近年來,隨著中醫學領域持續發展,中醫體質學說備受關注。中醫體質學說建立了體質辨識的標準化工具,可為與中醫體質相關的疾病預防與健康管理提供依據,因此可通過體質類型預測發病傾向,進而采取有效的干預手段[1]。目前,比較公認的體質分類和辨識標準是王琦九分法。王琦九分法采用填寫自測量表的形式,將中醫體質分為平和質、氣虛質、陽虛質、陰虛質、痰濕質、濕熱質、血瘀質、氣郁質、特稟質9 種基本類型[2]。其中除平和體質外,其余8 種體質又被稱為偏頗體質?;诖?,可將中醫體質分為平和體質與偏頗體質。在體質調查過程中,填寫自測量表的形式不僅受自測者主觀認知的影響,還需要花費大量的人力和時間,因此,如何方便可靠地判斷體質類型是一個值得關注的問題。

中醫經絡學說是中醫理論的重要研究內容之一。中醫經絡學說認為經絡具有運行全身氣血,聯系臟腑肢節,溝通上下內外,使人體各部協調,從而共同完成各種生理功能[3]。當臟腑發生疾病時,在原穴上會有相應反應,因此通過觀察十二條經脈上原穴的變化,就能診斷臟腑病情[4]。近代生物物理學的研究也表明,相對于非經絡部位,經絡部位有較為明顯的高電流及低電阻的特征,且在體表和深層次經絡循行線上有持續的電位變化[5],因此可通過經絡穴位的生物電學特性測量人體臟腑的健康狀態,并對失衡情況作出判斷,為臨床疾病的診斷、治療及療效的評估提供指導依據[6]。

目前,機器學習在許多領域包括中醫領域得到了廣泛應用,但有關經絡與體質方面的研究和應用非常少,利用機器學習并基于經絡穴位信號對人體體質進行分類是非常值得研究的課題?;诖?,本研究以中醫“藏象相關”為理論指導,以經絡穴位信號數據為基礎,將機器學習引入中醫體質研究中,將中醫體質分為平和體質和偏頗體質兩類,并對模型效果進行分析與評價,為從經絡穴位角度探究中醫體質類型提供參考。

1 資料與方法

1.1 一般資料

選取2022 年9 月至2023 年8 月招募的2756 例志愿者為研究對象,主要為我院門診部患者陪診者、校園內學生群體、威海市區居民和敬老院成員等。納入標準:① 年齡18 周歲及以上,常規活動正常者;② 受試者檢測區無皮炎等受損狀態;③ 對體質調查知情同意者。本研究已經本院醫學倫理委員會審批通過(批準文號:WHFY-YXLLWYH-L2023012)。

排除標準:① 佩戴心臟起搏器者,有器官移植或金屬移植者及使用植入式裝置者;② 傳染病、結核病活動期及甲亢患者;③ 出血患者(吐血、腦出血、外傷等);④ 心臟病及Ⅲ期高血壓患者;⑤ 嚴重肝臟、腎臟、心臟、肺臟衰竭者和高年齡患者;⑥ 各類腫瘤及化療放療患者、精神障礙者、無自理能力者;⑦ 趾端潰瘍患者;⑧ 各種疾病術后恢復期患者,特殊疑難病癥及有多種疾病患者;⑨ 過敏或對聲、光、電、磁刺激有過敏史或不良反應者。

1.2 測試方法與方案設計

根據王琦的“中醫體質與分類自測表”[2],2756 例受試者結合自身情況,對調查表中的問題逐一勾選。各個問題均按5 級評分,計算原始分數與轉化分數。原始分數為各個條目的分值和,轉化分數=(原始分數-條目數)/(條目數×4)×100%,以該評分結果作為判斷體質類型的標準[7],見表1。

本研究使用的中醫經絡檢測儀JK-02C 型(吉械注準20162270329)由感應采集器、中醫數據庫、云運算系統3 部分組成。感應采集器用于采集人體十二經脈24 個原穴的經絡信息;中醫數據庫用于記錄經絡穴位信號數據;云運算系統利用電腦和互聯網,讀取經絡穴位信號,獲取受試者的中醫經絡穴位信號。

在溫度適宜的環境下,受試者須符合下列條件方可接受采集:① 受試者在接受檢測前2 h 內不飲用酒類、咖啡及服用保健品、藥品[8];② 無劇烈運動;③ 檢測前,受試者須摘除身上金屬物品及通訊器材和其他可能影響檢測結果的設備。測試方法如下:① 受試者平躺或仰臥或坐立在檢測床上,雙手自然平放在身體兩側,雙手手心朝上;② 操作員戴上薄膜手套,將受試者手部、腳部相應的采集位置用棉簽蘸取超導耦合劑擦拭一遍后等待檢測;③ 按右手、右腳、左手、左腳的順序分別采集24 個經脈電穴位信號,24 個穴位信號的采集次序依次是右肺經太淵穴-右心包經大陵穴-右心經神門穴-右小腸經腕骨穴-右三焦經陽池穴-右大腸經陽溪穴-右脾經太白穴-右肝經太沖穴-右腎經太溪穴-右膀胱經束骨穴-右膽經丘墟穴-右胃經沖陽穴-左肺經太淵穴-左心包經大陵穴-左心經神門穴-左小腸經腕骨穴-左三焦經陽池穴-左大腸經陽溪穴-左脾經太白穴-左肝經太沖穴-左腎經太溪穴-左膀胱經束骨穴-左膽經丘墟穴-左胃經沖陽穴;④ 采集結束,保存受試者的經絡穴位信號。

本研究將數據集中的28個原始特征包括身高、體重、年齡、性別和24 個經絡穴位信號,采用隨機森林的過濾式特征選擇方法,篩選出最優特征子集。將特征選擇后的數據集納入梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法后建立二分類模型,即根據量表結果對所有受試者的體質進行標注,采用有標簽的訓練集對模型進行訓練和優化,利用測試集對模型的各項評價指標進行分析,篩選出性能最好的模型[9],實現對平和體質與偏頗體質的分類。本研究采用十折交叉驗證法測試算法效能,研究流程如圖1 所示。

圖1 研究流程圖

1.3 數據處理與算法驗證

本文數據預處理工作主要包括處理錯誤數據、缺失數據和篩除重復數據。由于數據錄入不僅需要錄入經絡穴位信號數據,還需要人工錄入受檢者的身高、體重等,而人工錄入的數據難免會存在錯誤、重復或缺失的情況,因此需要通過數據清洗對匯總至數據庫的數據進行校驗,進一步提高數據的真實性與準確性。

數據預處理后,將2756 例受試者的24 項經絡穴位信號、性別、身高、體重、年齡作為模型的輸入特征。為了避免特征量綱差異對預測結果造成影響,提升模型收斂速度,本文選用最大最小化方法將輸入特征歸一化到[0,1],計算方式如公式(1)所示。

式中,min、max 分別為屬性取值的最小值與最大值。模型輸出為平和體質和偏頗體質,平和體質賦值為1,偏頗體質賦值為0,以此構建中醫體質分類體系。

本研究的特征選擇一方面要篩選出中醫體質分類模型的最優特征子集以降低數據維度,提升中醫體質分類模型的計算效率;另一方面要篩選出各個經絡對中醫體質的影響力大小,為中醫體質學提供借鑒。本研究采用基于隨機森林的過濾式特征選擇方法,隨機森林是集成策略中最實用的機器學習算法之一,常用來處理復雜的高維度數據。隨機森林中訓練每棵樹的數據都由自助抽樣法從定義為集合B 的袋中抽出,剩余不出現在訓練樣本集中的數據為袋外數據(Out of Bag,OOB)。本文通過計算模型分類正確率隨OOB 變化的幅度對變量重要性分數進行排序[10]。

GBDT 算法是機器學習中應用較廣泛的算法之一[11-12]。GBDT 算法的內核是將多個弱分類器組合成為一個強分類器[13-14]。本研究中的數據集有以下特點:① 數據來源于醫學采集數據,噪聲??;② 數據集有28 維的原始特征,維度高;③ 經特征篩選后的最優特征子集中的特征多為連續變量。由于GBDT 模型是串行生成的非線性模型,結果為多棵決策樹加權累加,有對異常值敏感、適合處理連續變量、可處理高維度數據的特點,更適合本研究的數據,因此本文選擇GBDT 模型作為分類模型。具體參數設置如表2 所示。

表2 GBDT參數設置

本研究對中醫體質分類模型采用混淆矩陣計算其準確度、精準度、召回率和F1得分,并以此評價模型效果[15]。其中,準確度為正確預測分類的樣本數占總樣本數的比例,計算方式如公式(2)所示。精準度為真實為正例的樣本占所有預測為正例的樣本的比例,計算方式如公式(3)所示。召回率為真實為正例的樣本占預測正確的樣本的比例,計算方式如公式(4)所示。F1得分為根據精準度和召回率作出的一種綜合評價,計算方式如公式(5)所示。

式中,TP 為將真實的平和體質分類成平和體質的個數;FN 為將真實的平和體質分類為偏頗體質的個數;FP 為將真實的偏頗體質分類為平和體質的個數;TN 為將真實的偏頗體質分類為偏頗體質的個數。

十折交叉驗證常用來測試算法準確性,其步驟為:① 將數據集分成10 份,輪流將其中9 份作為訓練數據,1 份作為測試數據進行試驗,每次試驗都會得出相應的準確度、精準度、召回率和F1 得分;② 10 次結果的準確度、精準度、召回率和F1 得分的平均值作為對算法模型效果的評估。

2 結果

2.1 特征選擇

本研究按7 ∶3 的比例劃分訓練集與測試集,在訓練集中利用隨機森林的特征重要性函數對預處理后的28 個特征進行10 次特征重要性計算,根據特征重要性分值對各初始特征進行排序。選擇排序靠前、重要性更高的特征構成最優特征子集,并參與最終的模型分類運算。28 個特征重要性和平均值分數如表3 所示,平均值越大表示該特征在模型預測中的貢獻度越大,對偏頗體質與平和體質的分類影響越大。

表3 特征重要性和平均值統計表

其中,性別的特征重要性分數最高,為0.143;身高的特征重要性分數位居第2 位,為0.123;左脾經原穴的特選重要性分數位居第3 位,為0.08;左三焦經原穴、左肝經原穴與左膀胱經原穴的特征重要性分數約為0.07;右腎經原穴的特征重要性分數位居第7 位;右脾經原穴的特征重要性分數位居第8 位;年齡的特征重要性分數最低,僅為0.003。這說明性別、身高、左脾經原穴等排名靠前的特征對平和-偏頗體質分類結果的影響較大,年齡、體重等排名靠后的特征對平和-偏頗體質分類結果的影響較小。

在對模型特征進行選擇的過程中,過多或過少的特征數量都會影響模型的準確率,不利于模型的學習與訓練。為了找到符合模型的最優特征數量M,本文選取不同的M 值,將隨機森林模型運行100 次得到的100 個受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)值的平均值作為該特征數量下的AUC 值,見圖2。當特征數量M 為5~21 時,AUC 的平均值呈遞增的變化趨勢;當特征數量M 為22 時,AUC 的平均值達到最大值0.915;當特征數量M 為22~28 時,AUC 的平均值呈下降趨勢。這說明當特征數量M=22 時,AUC 的平均值最大,分類器的分類性能最好,故將重要性分數排名在前22 的特征作為模型的最優特征子集,分別是:性別、身高、左脾經原穴、左三焦經原穴、左肝經原穴、左膀胱經原穴、右腎經原穴、右脾經原穴、左膽經原穴、右三焦經原穴、右肝經原穴、右膽經原穴、右膀胱經原穴、左腎經原穴、左大腸經原穴、右心經原穴、左胃經原穴、左小腸經原穴、右心包經原穴、右大腸經原穴、左心包經原穴、右肺經原穴。

圖2 不同特征數量下AUC的平均值

2.2 GBDT結果分析

建立GBDT 模型,并通過十折交叉驗證模型性能,最終取10 次結果的平均值作為最終近似值輸出??傻迷撃P偷臏蚀_度為92.86%,精準度為93.65%,召回率為93.08%,F1 得分為0.92,各項評價指標較高,分類效果良好。通過ROC 曲線進一步分析GBDT 算法的分類結果,見圖3。GBDT 模型的ROC 曲線接近左上方,AUC 值為0.98,說明GBDT 模型的分類性能良好。

圖3 GBDT模型ROC結果

3 討論

以往基于經絡穴位信號對中醫體質的分類研究較少,多采用數據挖掘不同體質的經絡特點。何靜玲等[16]研究盆腔炎性疾病后遺癥慢性盆腔痛患者的體質分布特點,探討了不同體質與中醫經絡健康檢測儀檢測值的關系;吳凡等[17]研究不同高血壓分級患者體質特點與經絡特性的關系,為臨床中醫經絡診斷提供了理論依據。吳微等[18]探討原發性凍結肩患者的中醫體質類型和經絡特性,有助于了解凍結肩的疾病特點。劉彥汶等[19]通過對比糖尿病患者的不同體質、不同經絡的經絡能量值,探討了糖尿病患者體質與經絡能量的關系?;诮浗j穴位信號對體質分類的研究方面,建立并選用合適的基于經絡穴位信號的分類模型不僅對推動體質學說發展具有重要意義,彌補了現有體質診斷手段客觀依據的不足,使體質診斷分類中加入了可以量化的成分,還有助于明確和有針對性地提出以體質為導向的中醫養生保健等具體方案,提早預防和發現慢性病,遵循了“因人制宜”的防治原則,符合中醫“治未病”理念。

特征選擇的結果符合中醫學的相關理論,可為體質辨識提供幫助。中醫認為性別的不同會使體質類型出現較大的差異。賈麗燕等[20]通過對血瘀體質危險因素的Logistic 分析,得出女性是血瘀體質的危險因素,不同性別的血瘀體質的調節方式不同。李杰等[21]研究了不同性別陽虛體質類型的分布狀況和形成機理,得出不同性別陽虛體質形成的主要原因是性別差異。以上研究均能反映性別對體質類型的影響,這與本文特征選擇實驗中篩選出重要性分數排名第一為性別特征的實驗結果相吻合。此外,尚世由等[22]通過對200 例體檢者進行體質辨識與經絡特點研究,結果發現,偏頗體質類型者相較于平和體質者,其腎經、三焦經、胃經處、心包經的經絡穴位信號值偏低,肝經、膽經、脾經、小腸經、膀胱經處的經絡穴位信號值偏高,說明偏頗體質與平和體質的經絡穴位信號存在差異,與本文特征選擇實驗結果相吻合,證明特征選擇實驗篩選出的特征可為后續體質辨識提供一定幫助。

本研究尚存在一些不足:① 目前的分類模型只能對平和體質與偏頗體質分類,無法實現對9 種中醫體質分類;② 目前所搭建的模型只有單一的機器學習模型,今后還需增加更多的模型對比,以期建立更優化的基于經絡穴位信號的中醫體質分類模型;③ 本研究只從經絡角度出發對中醫體質進行分類,未能與舌象、面象、痧象相結合,今后可與相關方面結合進一步探索中醫體質分類的自動化、智能化。

4 結論

基于機器學習的中醫體質分類方法具有極大的臨床意義與價值。本研究利用隨機森林的特征選擇方法不僅為中醫體質分類模型篩選最優特征子集提升計算效率,還篩選出了各個經絡對中醫體質的影響力大小。此外,GBDT 分類模型能夠有效區分偏頗體質與平和體質,分類準確度達到了92.86%。這意味著可根據受試者的經絡信號特征,利用機器學習快速準確地診斷其體質類型,對中醫臨床的個性化治療方案設計和疾病預防提供了極大的幫助。

猜你喜歡
原穴偏頗特征選擇
原穴淺談
從原穴角度探討經脈臟腑相關的研究思路
“效力”盲區VS尺度偏頗——淺析多元情緒下輿情處置的能力困境
淺析主持人的主持方式與“接地氣”類節目的融合
Kmeans 應用與特征選擇
紀青山教授從臟腑辨證結合原穴治療原發性痛經
中國新民主主義革命早期蘇聯對華政策的偏頗
聯合互信息水下目標特征選擇算法
對年薪制的內涵理解不可偏頗
淺析《靈樞經》十二原穴*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合