?

決策樹模型在中醫藥領域的應用現狀

2021-09-28 00:53馬紅麗徐長英楊新鳴
世界中醫藥 2021年17期
關鍵詞:決策樹中醫藥預測

馬紅麗 徐長英 楊新鳴

摘要 決策樹因其形狀像樹且又能用于決策故被稱為決策樹,是通過機器學習,從一系列無秩序、無規則的邏輯關系中推理出一套分層規則,將結局按照概率分布的樹形圖表達,從而進行精確預測或正確分類?,F系統綜述了決策樹在中醫藥領域的應用現狀,發現決策樹在疾病風險評估、中醫病證的診斷、辨證分型、中藥藥性或不良反應的預測、證候與理化指標的關聯、預后評估和成本-效果分析等方面均有所應用,且其分類和預測結果較為準確,值得今后進一步研究并推廣應用。

關鍵詞 決策樹;數據挖掘;機器學習;中醫藥;預測模型;樹形圖;分類;風險評估

Application Status of Decision Tree in Traditional Chinese Medicine

MA Hongli1,XU Changying2,YANG Xinming1

(1 The First Affiliated Hospital of Heilongjiang University of Chinese Medicine,Harbin 150040,China; 2 Heilongjiang University of Chinese Medicine,Harbin 150040,China)

Abstract A decision tree is called this name because it is shaped like a tree and it can be used for decision-making.It is a set of hierarchical rules inferred from a series of disordered and irregular logical relations by machine learning,and the outcomes are expressed according to the tree graph of probability distribution,so as to accurately predict or correctly classify.This paper systematically summarizes the present situation of the application of decision tree in the field of traditional Chinese medicine,and found that the decision tree in used in disease risk assessment,diagnosis of TCM diseases and syndromes,syndrome differentiation of TCM,the prediction of Chinese medicinal properties or adverse reactions,syndrome differentiation associated with physical and chemical indicators,prognostic evaluation and cost effect analysis and so on.The classification and prediction results by decision tree are more accurate,and is worth for further research and application in the future.

Keywords Decision tree; Data mining; Machine learning; Traditional Chinese medicine; Prediction model; Tree diagram; Classification; Risk assessment

中圖分類號:R241文獻標識碼:Adoi:10.3969/j.issn.1673-7202.2021.17.025

我國中醫藥資源豐富,歷史悠久,但隨著“大數據”時代的到來,多數中醫藥數據仍在“沉睡”階段,目前傳統數據處理模式已無法適應“大數據”時代的要求。如何高效準確地從這些大規模數據中獲取有價值的新鮮知識將為中醫藥領域帶來前所未有的機遇和挑戰,借助大數據的發展推動并促進中醫藥領域臨床和科研的發展,可能會給中醫藥領域帶來重要的革命性變化[1]。目前,決策樹作為一種機器學習方法已經開始應用于商業、金融、教育等各領域,其分析和預測結果在各領域中都取得了令人矚目的成效。近年來,有學者將決策樹應用于醫學領域,根據患者的臨床特征和各項指標等來預測疾病的發生、發展及預后,或進行疾病的診斷及用藥配伍,具有重要指導意義?,F將決策樹在中醫藥領域中的應用做一綜述,以期為今后決策樹在中醫臨床中的應用提供更多的思路和方法。

1 決策樹的研究概況

1.1 決策樹的概念

決策樹是用樹形圖來表示邏輯處理的一種工具,由一系列節點和分支組成。一般從根節點開始,通過一系列規則對數據進行分類[2]。自上而下,根據不同的分類規則將數據樣本劃分成不同的子集,每個樣本子集作為一個葉節點,每個葉節點對應一個分類,這種圖形很像一棵樹的枝干,故稱決策樹[3]。決策樹在分類、預測、規則提取等領域應用廣泛。

1.2 決策樹的常見算法

1.2.1 ID3算法

ID3算法是目前最有影響的決策樹算法,是由Quinlan于1986年首次提出的。ID3決策樹算法篩選“信息增益”最大的屬性劃分訓練數據集,基本原則是:數據集被分裂為若干子集后,要使每個子集中的數據盡可能地“純”,即進行分枝時系統的熵值最小,從而很大地提高算法的運算速度和精確度[4]。但ID3算法存在2點主要缺陷:一是只能處理離散型數據,不能對連續型數據進行分類;“信息增益”作為分支屬性的標準時,往往會偏向于取值較多的屬性,這類屬性在某些情況下并不能提供太多有價值的信息[5]。

1.2.2 C4.5和C5.0算法

C4.5算法由Quinlan于1993年提出。C4.5算法是ID3算法的改進,在ID3的基礎上增加了對連續型變量和缺失數據的處理,采用了信息增益比作為分枝屬性的標準,彌補了ID3算法偏向于選擇取值較多的不足。但C4.5算法最主要依據錯誤率評價決策樹,不考慮樹的深度和結點的個數,并且進行分組時,對屬性值逐個試探,效率較低。C5.0算法則是在C4.5的基礎上進一步優化,在執行效率和內存使用方面進行了改進,提高了分類效率和準確性[6]。

1.2.3 CART算法

CART即分類回歸樹,是由加利福尼亞大學的Leo Breman和斯坦福大學的Jerome H.Friedman在1984年共同提出的,它描述給定因變量值X后,自變量Y條件分布的一個靈活方法,其因變量主要是二值分類的變量,也可是多分類、有序變量或者連續型變量,自變量既可以是離散變量,也可是連續型變量。CART算法是基于統計理論的非參數識別算法,擁有非常強大的統計解析能力,對數據的要求不高,數據可以是不完整或是復雜的浮點數運算,結果也清晰明了。但作為大樣本量的統計分析方法,CART存在穩定性較差的問題,尤其是樣本量較小時。

1.2.4 CHAID算法

CHAID即卡方自動交互檢測,由Kass在1980年提出。其主要特征是前向修剪,多向分叉,分析過程能夠顯示出各個變量之間的相互作用關系,是一種基于調整后的顯著性檢驗決策樹模型。CHAID方法非常適宜處理分類變量,以因變量為根節點,對每個自變量進行分類,分別計算各分類屬性的卡方值,并將產生最大卡方值的屬性作為分裂屬性進行劃分,直到劃分至沒有顯著意義的子節點為止,因此不需要做后剪枝處理。然而CHAID算法在穩定性方面略有不足,不同的父節點數、子節點數、變量賦值以及樹的深度都可能會對模型產生影響。

1.3 決策樹的優勢與不足

1.3.1 優勢 1)易于理解和實現。人們在運用決策樹模型過程中不需要使用者了解很多的背景知識,因為它能夠直接體現數據的特點,易于理解決策樹所表達的意義。2)數據準備簡單。決策樹模型能夠同時處理數據型和常規型2種屬性,在短時間內能夠對大量數據做出可行且效果良好的分析結果。3)易于評測??梢酝ㄟ^驗證來評估模型的可信度;根據形成的決策樹模型很容易推出相應的邏輯表達式。

1.3.2 不足 1)擬合過度。如果對決策樹模型的生長沒有合理限制,任其自由生長有可能使節點只包含單純的事件數據或非事件數據,使其雖然可以完美匹配,但是無法適應其他數據。2)精確度不夠。決策樹算法往往偏向取決值較多的屬性,而取值較多的屬性卻并不一定是最優的屬性,這就影響它的精確度。3)有局限性。盡管決策樹對大數據處理具有一定優勢,但卻無法適用于一些不能用數據表示的決策。

2 決策樹在中醫藥領域的應用

2.1 決策樹在疾病風險評估中的應用

風險預測模型是慢病防治的重要手段。中國的醫療衛生體系正在經歷著由以治病為中心向以健康、預防為中心的轉變[7]。通過風險評估與預測來篩選高風險患者群,然后采取有針對性的治療或預防策略,可以大大降低疾病的發生率。利用決策樹構建風險評估模型是早期發現、預測和預防各種疾病的一種有效方法。目前針對西醫危險因素的研究較多,如采用C5.0決策樹算法預測2型糖尿病患者發生腦梗死風險[8],或進行早期胃癌風險評估[9]。

針對中醫危險因素構建疾病風險預測模型的研究相對較少。呂航等[10]對2型糖尿病患者伴發非酒精性脂肪肝風險進行了預測,通過測定這些患者中醫人格及體質類型并收集其臨床指標,運用決策樹方法建構風險預測模型,結果發現3條預測非酒精性脂肪肝的患病風險規則,經驗證預測準確度為87.1%。同時,該課題組還構建了2型糖尿病患者伴發冠心病的風險預測模型,結果發現少陰人格及陰寒血瘀體質類型的2型糖尿病患者發生冠心病的風險較大,其預測準確度高達93.6%[11]。

決策樹構建的風險預測模型準確度較高,但目前在中醫藥領域應用不足。中醫“未病先防”的概念早在《黃帝內經》中就已經提出:“上工治未病,不治已病,此之謂也?!彪S著生活水平的提高、醫療理念的轉變,越來越多的人們意識到疾病預防的重要性,中醫“治未病”的觀念開始越來越受到全社會的關注。因此,今后應加強并普及機器學習在中醫疾病風險評估中的應用,不僅可防治未病,還可提升高危人群早期篩查準確度。

2.2 決策樹在中醫病證診斷中的應用

疾病診斷的過程也是分類疾病的過程,是根據患者的臨床表現特征劃分到某一疾病的過程。決策樹對較多混雜因素和數據進行分析是通過一系列規則對數據進行分類的過程,適合應用于疾病診斷中進行研究。且有實驗數據表明,機器學習對一些現代疾病的診斷準確率已達到醫生水平,或部分診斷率已超過醫生。中醫診斷學的精髓在于“辨證論治”,辨證準確,疾病才能得到有效的治療。除了臨床醫師自身的診療經驗外,應用決策樹算法建立輔助中醫診斷或辨證分型系統,可能是提高中醫辨證準確率的一個有效途徑。

徐蕾等[12]將決策樹方法應用在慢性胃炎中醫辨證分型模型構建中,將26個對中醫辨證分型有意義的因素按其重要性進行排序,發現當決策樹葉子數目增長至126個時,正確分類率達到了最高點。模型構建成功后對406例慢性胃炎患者的中醫證型進行預測,發現該模型區分各類證型的靈敏度和特異度較高,證明模型構建成功,適合應用于慢性胃炎的中醫證型診斷。謝雁鳴等[13]利用決策樹分別建立了原發性骨質疏松癥的陽虛診斷模型和陰虛診斷模型,發現陰虛診斷模型以五心煩熱、盜汗以及便秘3個變量為主,診斷準確率達99.72%;陽虛診斷模型以頭暈、氣短、畏寒肢冷、腰膝酸軟及大便稀溏5個變量為主,診斷正確率達99.87%。還有學者用決策樹模型構建高血壓痰濕壅盛證診斷模型[14],慢性阻塞性肺病中醫診斷模型[15],慢性乙型肝炎肝膽濕熱證和肝郁脾虛證的診斷模型[16]等。這些模型的成功構建,說明決策樹模型適合應用于中醫診斷和中醫辨證分型。

2.3 決策樹在方藥配伍中的應用

吳嘉瑞等[17]建立決策樹模型探討中藥七情配伍中相使、相惡藥對的藥性規律。在成功建立模型后,選取《本草綱目》中有確切藥性記載的部分藥對進行驗證,結果發現,應用建立的模型能夠正確判斷配伍方式的藥對僅有131對,準確率為45.6%,說明建立的模型與實際差異較大,不適于推廣應用。張春生等[18]利用C4.5決策樹算法研究蒙醫方劑配伍規律,將治療“赫依病”的27個方劑作為主要研究對象建立決策樹分類模型,發現紫草茸是治療骨赫依的關鍵藥物,五靈脂是治療大腸赫依的關鍵藥物等結果,對臨床有一定的指導意義。

在應用機器學習方法研究中醫方劑配伍規律方面,目前多采用聚類分析、關聯規則或神經網絡等方法進行研究,應用決策樹算法對方劑配伍規律的研究相對較少。決策樹模型適用于分類與預測,因此在中藥領域的研究多集中在對中藥藥性的預測[19]、中藥化合物的篩選[20]、中藥不良反應的預測[21-22]等。

2.4 決策樹在中醫證候與理化指標相關性中的應用

證候是中醫特有的概念,是疾病在發生和演變過程中某一階段本質的體現,多通過中醫四診信息所獲知,能夠為辨證論治提供依據。理化指標是疾病診斷過程中的重要參考之一,是評價和界定疾病發生發展的標準。近年來,有學者就中醫證候學特點與病理生理進程密切相關的理化指標的相關性進行研究,以期尋找疾病及其證候與理化指標間的關聯規律,實現證候-理化指標之間的信息互通,為中醫的辨證提供生物學參考,實現中西醫結合診斷與治療的目的。

張軍鵬等[23]將冠心病心絞痛合并糖尿病患者的臨床基本資料、理化指標和中醫四診信息進行綜合分析,篩選出與氣陰兩虛證最相關的理化指標6項,形成7條識別途徑,經驗證,該模型識別氣陰兩虛證準確率高達77.00%。史琦等[24]基于決策樹方法將冠心病心絞痛合并糖尿病患者氣虛證與理化指標相關聯,發現基于核心理化指標建立的氣虛證決策樹模型的檢測正確率為77.78%。這些研究說明臨床理化指標對中醫證型診斷具有較高的實用價值,能夠用現代生物學信息解釋中醫證候,從而為中醫藥臨床研究走向世界提供了依據。

2.5 決策樹在預后評估中的應用

疾病的預后評估是對疾病發生后各種不同結局的預測,在疾病的治療過程中,由于患者的年齡、基礎狀態、體質、合并疾病等諸多因素的不同,即使接受了同樣的治療,預后也可能有很大的差別。利用決策樹模型,針對疾病預后因素進行分析和疾病結局進行預測,可以有針對性地對不同患者采用不同的治療手段,進一步提高患者的治愈率或生存率。

查青林等[25]利用決策樹模型探索類風濕性關節炎證候信息與療效的關系時,將397例確診為活動期類風濕性關節炎患者隨機分成中藥觀察組和西藥觀察組,收集患者各項診查指標和中醫四診信息,中藥觀察組共納入變量20個,西藥觀察組納入變量26個。結果發現中藥觀察組中關節壓痛程度、晨僵、夜尿多、舌淡紅4項指標療效有差異;西藥組中晨僵、白細胞數目、C反應蛋白和舌苔白這4項觀測指標療效有差異。郜潔等[26]采用決策樹回顧性分析中西醫結合治療輸卵管妊娠影響因子及預后的風險因素,共篩選出5個對預后有重要影響的變量,可比較準確地預測早期輸卵管妊娠的預后。

2.6 決策樹在成本-效果分析中的應用

在疾病的治療過程中,往往會有多種治療方案,除了療效,成本也是需要考慮的一方面,綜合成本-效果才能確定最合理的治療方案。成本-效果分析是目前藥物經濟學評價中應用較多的方法,通過分析和比較不同治療方案的花費和療效,計算每種治療方案的成本效果比,該比值越小說明治療方案越合理。運用決策樹進行成本-效果分析可以為臨床合理用藥和疾病防治決策提供科學依據。

宣建偉等[27]在玉屏風顆粒治療兒童反復呼吸道感染成本-效果分析中運用到了決策樹模型。將常規治療、玉屏風顆粒聯合常規治療、匹多莫德、玉屏風顆粒聯合匹多莫德4種治療方式進行比較,發現玉屏顆粒聯合常規治療比常規治療成本效果比值低;玉屏風顆粒聯合匹多莫德相對匹多莫德單用治療小兒反復呼吸道感染,能夠減少反復呼吸道感染發生次數,具有絕對的成本-效果優勢,不僅有更好的療效,還能減少總體醫療花費。另一項研究采用決策樹模型對脈絡寧注射液與復方丹參注射液治療缺血性腦卒中進行成本-效果分析,結果顯示二者的成本-效果比分別為4.18和2.21,而脈絡寧注射液較復方丹參注射液的增量成本-效果比為12.4。因此認為脈絡寧注射液治療缺血性腦卒中比復方丹參注射液的療效更好,經濟學更佳[28]。

3 小結與展望

大數據時代的到來,為中醫藥領域帶來了巨大的機遇與挑戰。利用機器學習處理幾千年來中醫藥領域累積的大數據,可促進傳統醫學大數據的有效利用,為我國中醫藥學的發展帶來機會。決策樹模型適用于分類、預測和規則提取,目前,決策樹已經在中醫病證診斷、辨證論治及預后等方面有了較好的應用。然而在疾病風險評估、高危因素預測、預后評估等方面應用不足。隨著中醫“治未病”觀念的普及和接受,如何利用機器學習方法了解疾病高危因素,及時進行疾病風險評估以更好發揮中醫“治未病”的優勢是我們今后要努力的方向。

參考文獻

[1]解育靜.大數據時代中醫藥領域面臨的機遇與挑戰[J].中華醫學圖書情報雜志,2015,24(7):33-35.

[2]Srikanth R,Agrawal R.Mining Sequential Patterns:Generalizations and performance improvement[A].In proceedings of the 5th international conference on extending database technology:advances in database technology[C].Avignon,France:EDBT,1996:3-12.

[3]田苗苗.數據挖掘之決策樹方法概述[J].長春大學學報.2004,14(6):48-51.

[4]Kantardzic Mehmed.數據挖掘:概念,模型,方法和算法[M].北京:清華大學出版社,2003:121-123.

[5]劉昆,劉業政.基于決策樹的醫療數據分析[J].計算機工程,2002,28(2):41-43.

[6]張棪,曹健.面向大數據分析的決策樹算法[J].計算機科學,2016,43(S1):374-379,383.

[7]魏戌,謝雁鳴,田峰,等.病證結合構建慢病風險預測模型的思路與方法[J].中國中醫基礎醫學雜志,2017,23(6):798-801.

[8]于長春.決策樹模型在2型糖尿病患者腦梗死風險預測中的應用[J].中國衛生統計,2011,28(6):683-684.

[9]劉迷迷,劉永佳,溫麗,等.C 5.0決策樹對早期胃癌風險篩查研究[J].中華腫瘤防治雜志,2018,25(16):1131-1135.

[10]呂航,王昊,劉媛,等.基于決策樹的中醫人格體質對2型糖尿病患者伴發非酒精性脂肪肝病風險的預測研究[J].中國中醫基礎醫學雜志,2017,23(9):1257-1259.

[11]呂航,楊秋莉,杜漸,等.基于決策樹預測糖尿病合并冠心病患病風險的中醫人格體質特征研究[J].南京中醫藥大學學報,2017,33(6):639-642.

[12]徐蕾,賀佳,孟虹,等.基于信息熵的決策樹在慢性胃炎中醫辨證中的應用[J].第二軍醫大學學報.2004,25(9):1009-1012.

[13]謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調查的原發性骨質疏松癥中醫基本證候研究[J].世界科學技術-中醫藥現代化,2007,9(2):38-44.

[14]田艷鵬,丁學義,朱羽碩,等.基于決策樹和神經網絡的高血壓病痰濕壅盛證診斷模型研究[J].中華中醫藥雜志,2018,33(8):3579-3584.

[15]蘇翀,任曈,王國品,等.利用決策樹建立慢性阻塞性肺病中醫診斷模型[J].計算機工程與應用.2019,55(3):225-230.

[16]陳瀟雨,馬利莊,胡義揚.基于決策樹方法的慢性乙型肝炎中醫證候分類[J].上海中醫藥大學學報,2013,27(1):40-44.

[17]吳嘉瑞,秦丹,張冰,等.基于決策樹算法的七情配伍相使相惡藥性規律研究[J].中國醫藥指南,2014,12(3):157-158.

[18]張春生,圖雅,李艷.基于決策樹的蒙醫方劑藥物與主治的關系研究[J].中國中醫基礎醫學雜志,2018,24(9):1299-1302.

[19]胡亞楠,王梅,曹佳,等.組分中藥藥性預測平臺構建[J].中華中醫藥雜志,2016,31(3):965-967.

[20]王曦廷,李彧,張瀾,等.基于機器學習的抗纖維化中藥化合物篩選研究[J].北京中醫藥大學學報,2019,42(1):30-36.

[21]崔盈盈,吳嘉瑞,張丹,等.基于數據挖掘的清熱類中藥注射劑不良反應流行病學特點研究[J].藥物流行病學雜志,2017,26(10):675-682.

[22]吳東苑,楊偉,唐進法,等.不平衡數據處理方法對中藥不良反應預測的應用研究[J].世界科學技術-中醫藥現代化,2017,19(9):1455-1461.

[23]張軍鵬,徐學功,徐變玲,等.基于數據挖掘方法的冠心病心絞痛合并糖尿病患者理化指標與氣陰兩虛證診斷模式的建立[J].中國中醫基礎醫學雜志,2018,24(1):65-68,130.

[24]史琦,陳建新,趙慧輝,等.基于決策樹方法的冠心病心絞痛合并糖尿病患者理化指標與氣虛證關聯模式的建立[J].中華中醫藥雜志,2012,27(6):1538-1540.

[25]查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風濕性關節炎證病信息與療效的相關關系[J].中國中西醫結合雜志,2006,26(10):871-876.

[26]郜潔,黃艷茜,胡昀昀,等.基于決策樹的中西醫結合治療輸卵管妊娠的預后因子分析[J].廣州中醫藥大學學報,2016,33(4):494-497.

[27]宣建偉,盧永吉,劉寶.玉屏風顆粒治療兒童反復呼吸道感染成本-效果分析[J].中國藥物經濟學,2017,12(7):5-9.

[28]李慧敏,廖星,胡瑞學,等.中醫藥治療急性缺血性腦卒中RCT結局指標的現狀分析[J].中國中藥雜志,2020,45(9):2210-2220.

(2020-08-19收稿 責任編輯:楊燕)

猜你喜歡
決策樹中醫藥預測
選修2—2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
簡述一種基于C4.5的隨機決策樹集成分類算法設計
中醫藥走遍全球再迎變革
首部中醫藥綜合性法律
《中華人民共和國中醫藥法》誕生
決策樹學習的剪枝方法
國家中醫藥管理局:屠呦呦獲獎向世界證明中醫藥價值
《福彩3D中獎公式》:提前一月預測號碼的驚人技巧!
決策樹在施工項目管理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合