?

支持向量機在建立冠心病早期診斷模型中的應用*

2011-02-03 03:49孫小宇康曉平
中國衛生統計 2011年2期
關鍵詞:心電圖準確率向量

孫小宇 姚 晨 康曉平△

支持向量機在建立冠心病早期診斷模型中的應用*

孫小宇1姚 晨2康曉平1△

目的探索支持向量機方法在建立冠心病早期診斷模型中的應用,為冠心病危險因素在早期診斷中的合理應用提供理論依據。方法 首先應用logistic回歸分析方法篩選冠心病危險因素,將有統計學意義的危險因素與24 h動態心電圖檢查結果共同構建支持向量機模型,并應用測試數據集對各模型的診斷能力進行評價。結果 24 h動態心電圖檢查結果與危險因素共同構建的支持向量機模型較單獨應用24 h動態心電圖診斷有更好的診斷準確率和靈敏度,特異度較低。對應用不同變量構建的模型進行比較,應用24 h動態心電圖,結合年齡、性別、糖尿病、高血壓構建的模型診斷效果較好,準確率為70.35%,靈敏度為90.27%,特異度為34.76%。結論 應用支持向量機可以建立合適的冠心病早期診斷模型;結合主要危險因素進行冠心病的早期診斷可以提高診斷準確率。

支持向量機 冠心病 診斷模型 24 h動態心電圖

*:“十一五”國家科技支撐計劃項目(2006BAI01A02)

1.北京大學公共衛生學院流行病與衛生統計學系(100191)

2.北京大學第一醫院(100034)

△通訊作者:康曉平,E-mail:Xpkang@bjmu.edu.cn

冠狀動脈粥樣硬化性心臟病(簡稱冠心病)已成為世界范圍內的首位死亡原因,明確診斷是防治的首要任務〔1〕?,F研究已證實,核素心肌灌注顯像、冠狀動脈成像、冠狀動脈造影等檢查方法的診斷能力較強〔2-4〕。但這些方法由于設備昂貴、操作技術要求高、檢查費用高且為侵入性檢查,使它們更適用于疾病的確定性診斷,而不適合在早期診斷中應用,特別是在基層醫院還不能作為常規檢查普及?;谠搯栴},一些研究者提出了聯合多種無創檢查方法的診斷策略,其中研究較多的是動態心電圖、運動心電圖及多排螺旋CT冠脈成像之間的組合。但聯合診斷雖能一定程度上提高疾病診斷效率,卻同樣存在技術、人員、費用上的限制。美國冠心病診療指南中提出,冠心病的診斷應結合對直接危險因素的評估進行〔5〕。在中國基層醫院的臨床實踐中,醫生對冠心病的診治多數憑個人臨床經驗,缺少科學應用指南的循證依據,導致較高的假陰性率或假陽性率出現。在影響冠心病的眾多因素中,哪些組合能提高診斷的靈敏度和特異度,有關的研究較少。因此,本研究將應用支持向量機(support vectormachine,SVM)這種可以解決非線性可分問題的模式識別方法,結合臨床中普及面較廣的24 h動態心電圖檢查及冠心病常見危險因素,建立不同組合的冠心病診斷模型,并比較其診斷準確率,探索適用于冠心病早期診斷的組合模型。

資料來源

數據來源于國內20家三級甲等醫院中自2000年1月至2007年12月期間就診疑診冠心病并初次進行診斷性冠脈造影患者的資料。本文選取其中進行24h動態心電圖檢查,并能提供人口學及現病史資料的病例,共3 469例。其中,確診為冠心病者為2 237例,非冠心病者1 232例;性別分布為男性2 144例,女性1 325例,平均年齡為61歲。

研究方法

1.研究變量的定義及賦值

(1)金標準的選擇 本研究中冠心病診斷的金標準為冠狀動脈造影檢查結果,其中以至少一支主要冠狀動脈或其主要分支的內徑有≥50%的狹窄診斷為陽性。

(2)24h動態心電圖診斷標準 診斷結果共分為三類,即明確心肌缺血改變、可疑缺血改變以及正常,定義如下:明確心肌缺血改變:ST段呈水平型或下斜型壓低≥1mm且持續時間≥1min,且兩次缺血發作間隔至少1min;可疑缺血改變:有ST段壓低、T波倒置或高尖、QT間期延長、U波倒置等缺血心電圖表現,但未達到明確心肌缺血改變診斷標準;或室性早搏≥100次/24h;或II度2型房室傳導阻滯。

(3)影響因素的篩選及賦值

以金標準診斷的是否患病為因變量,以患者性別、年齡、體質指數、吸煙史、飲酒史、是否患有高血壓、高脂血癥、糖尿病、腦血管病等為自變量進行logistic回歸,應用后退法篩選變量,檢驗水準定為0.10。經篩選具有統計學意義的主要危險因素(年齡、性別、是否患有高血壓、高脂血癥、糖尿病)及24h動態心電圖檢查結果的賦值見表1。

2.支持向量機原理

該理論是Vapnik等人1995年首先提出來的一種模式識別的新方法,在解決有限樣本、非線性及高維問題中表現出特有的優勢,它追求的是在現有信息下的最優解,克服了神經網絡學習方法中合理結構難以確定和存在局部最優等缺陷,大大提高了學習方法的推廣能力〔6〕。

表1 篩選出的各變量賦值表

支持向量機通過非線性映射φ:Rn→H,將輸入空間的樣本映射到高維特征空間H中,在該空間中構造最優分類超平面。該最優分類平面以結構風險最小化為原則,使錯分個數最少以保證經驗風險最小,間隔最大使推廣界的置信范圍最小。當數據為二維兩類線性可分,假設分類面方程為ω·x+b=0,將判別函數進行歸一化后,則要求所有樣本滿足如下約束:

其中,支持向量(SV)就是使式(1)中等號成立的樣本,其是訓練集中的關鍵元素,它們離決策邊界最近。分類間隔算式為:

為控制模型推廣能力,則需最大化分類間隔,即通過最小化‖ω‖2來實現。為解決此問題,引入如式(3)所示Lagrange函數:

式中αi>0為Lagrange系數,此函數對ω和b最小化,對αi最大化。將上述問題轉化為其對偶問題,根據KKT條件,最終求解得到的最優分類函數是:

當需要將輸入空間映射到高維特征空間時,只需通過核函數 K,使得 K(xi,xj)= φ(xi)·φ(xj),就可以得到高維特征空間中的內積,相應的決策函數就變為:

常用的核函數有多項式核函數、徑向基核函數、Sigmoid核函數等。當訓練樣本為線性不可分時,將允許一些錯分點的存在,此時引入一個非負松弛變量ξi≥1,i=1,…,l。此時,式(1) 變為:

則是在上述條件下求下列目標函數的極小值:

其中,C是一個用戶自定義的懲罰因子,用于控制對錯分的懲罰程度,以保持樣本偏差與機器泛化能力之間的平衡。這樣,同時考慮最少錯分樣本和最大分類間隔,就得到了線性不可分情況下的最優超平面。

本研究中應用的核函數為支持向量機中應用較多的徑向基核函數,應用中需要確定的參數有g和C,借助參數尋優函數,分別在10-2~102之間尋找,經交叉驗證為最優結果時,確定兩參數的值。

3.訓練樣本和測試樣本的選取

研究中將所有病例資料隨機抽取70%(2 427例)為訓練樣本,剩余30%(1 042例)為測試樣本,訓練樣本用于構建支持向量機模型,測試樣本用于評價模型的分類效果。準確率、靈敏度及特異度為模型好壞的評價指標。

4.統計原則及統計軟件

計量指標以均數和標準差描述,計數指標以例數及百分數描述。

支持向量機模型的建立應用Matlab 7.0軟件,結合臺灣林智仁教授等編寫的Libsvm-2.89-3支持向量機工具包實現〔7〕;統計學描述應用SAS 9.1.3軟件實現。

結 果

1.測試數據集內研究對象基本情況

測試數據集內樣本共1 042例,其中非冠心病患者374例,冠心病患者668例。通過將24h動態心電圖診斷結果中可疑心肌缺血和明確心肌缺血歸類為陽性,正常為陰性,24h動態心電圖檢查結果的診斷靈敏度為68.11%,特異度為44.12%,準確率為59.50%。對測試數據集內研究對象的基本情況進行描述性統計,結果見表2。

表2 測試數據集內研究對象基本情況描述

2.多元logistic回歸因素篩選結果

以是否患有冠心病為因變量,對變量進行logistic回歸分析篩選主要的因素,表3列出有統計學意義的變量及統計量。

表3 logistic回歸模型的變量及統計量

3.支持向量機模型的建立與評價

應用Libsvm-2.89-3工具包及Matlab 7.0軟件建立支持向量機模型,核函數選擇徑向基函數。將納入的研究因素劃分為人口學因素及現病史兩部分,人口學因素包括年齡及性別,現病史包括高血壓、高脂血癥及糖尿病。首先應用24h動態心電圖檢查結果與人口學因素構建診斷模型,繼而根據OR值大小依次納入病史信息,分別構建不同的模型。不同模型的參數選取及測試結果如表4所見。

表4 納入不同變量構建模型的參數及評價

討 論

支持向量機方法已逐漸應用在醫學診斷領域,尤其對于一些非線性可分數據,更顯示了它的優勢,并且其設計簡單,建模涉及參數較少〔8〕。本研究中建立的支持向量機模型僅有兩個參數,分別為徑向基核函數的參數g以及懲罰因子C。在既往一些研究中,模型參數通常使用默認值,但此時建立的模型很可能不是最優模型。武振宇等人的研究中提到,應對核函數參數進行調整,以確定最優參數〔9〕。本研究中應用了參數尋優函數,對選取不同參數的模型進行比較,確定最優參數。研究中五個模型的最優參數g變動幅度不大,包括0.25和0.5兩種取值,而懲罰因子C變動稍大,取值變化范圍為0.5~8。懲罰因子反應了模型對離群點的重視程度,當離群點帶來的損失不容忽視時,則需要相應提高懲罰因子的大小。在應用年齡、性別和24h動態心電圖構建模型時,可能由于僅有三個變量用于建模,一些離群點對于模型構建的影響不可忽視,因此,經尋優函數選取的最優C值為8,較其他模型的C值大。由于計算機業的迅速發展,用支持向量機計算及建立模型的方法變得簡單,應用中的關鍵則是如何進行參數尋找、評價模型效果及建立合適的模型。

本研究中,僅用24h動態心電圖檢查診斷冠心病時診斷靈敏度為68.11%,特異度為44.12%,準確率為59.50%。構建支持向量機模型時,在24h動態心電圖檢查的基礎上加入人口學因素,模型的診斷準確率及靈敏度高于單獨應用24h動態心電圖,但特異度有所下降;繼而根據OR值的大小先后在模型中加入是否患有糖尿病、高血壓,模型的準確率及靈敏度得到了進一步的上升,特異度變化不大,均較低。這說明了對與冠心病密切相關的危險因素水平的評估有助于冠心病診斷靈敏度的提高。但在加入高脂血癥后,模型的準確率有所下降,這與既往研究中高脂血癥與冠心病關系密切的研究結果不符,這可能由于本研究中病例組和對照組的高脂血癥患病率均較高,分別為57.04%和51.60%,遠高于2006年中國心血管病報告中的血脂異?;疾÷?8.6%〔10〕。導致這種情況發生的原因可能與本研究納入標準有關,本研究所選病例為同時進行了24h動態心電圖及冠狀動脈造影的患者,為疑診冠心病患者,其血脂水平可能高于正常人群,而兩組高脂血癥患病率均高掩蓋了血脂因素對疾病的影響。對于logistic回歸中OR值較小的年齡,考察將其移除模型的診斷結果,雖然靈敏度有所提高,但特異度大幅度下降,準確率也有所下降,因此,作為冠心病的直接危險因素,年齡應保留在模型中。本研究中的各模型診斷特異度均不高,一方面由于支持向量機模型以高總體正確率為目標,若樣本中患者數多于非患者數,兩類的不均衡導致少數類錯分更多,特異度有可能較低。在下一步的工作中,可考慮嘗試一些解決非均衡數據問題的新方法構建模型〔11〕,探索提高特異度的方法;另一方面,本研究是將24h動態心電圖檢查結果與各種冠心病高危因素組合后出現的假陽性增高現象,使誤診率升高,這也說明在冠心病的早期診斷中,將高危人群納入監測是非常重要的。

冠心病的早期診斷對及時治療疾病,控制病情發展有重要意義,但應用何種早期診斷方法一直是研究的熱點。一些診斷效率高的診斷方法對操作人員、檢查費用等均有較高要求,不適于基層醫院的應用和疾病的早期診斷;其他檢查方法如靜息心電圖的診斷效率較低,運動或藥物負荷心電圖對操作者、患者狀態均有要求,這些不足也限制了他們與其他無創檢查方法聯合診斷的推廣和應用。因此,探索適合冠心病早期診斷的方法有重要意義。美國冠心病診斷與治療指南中提出冠心病的診斷需結合冠心病的直接危險因素進行,因此,本研究探索了結合危險因素進行早期診斷,為其在臨床實踐中應用提供理論依據。結果顯示,在應用較易實現的24h動態心電圖檢查的基礎上,結合患者年齡、性別、是否患有糖尿病、高血壓的情況,借助支持向量機模型,提高了對冠心病診斷的準確率和靈敏度。盡管診斷模型的特異度不高,但對于冠心病一類有確定性診斷方法且有系統治療方案的疾病,早期診斷的高靈敏度即降低疾病的漏診率至關重要,且被誤診的患者亦是冠心病的高危人群,應予以重視。

1.The global burden of disease:2004 update.http://www.who.int/healthinfo/global_burden_disease/2004_report_update/en/index.htm l.

2.Loong CY,Anagnostopoulos C.Diagnosis of coronary artery disease by radionuclide myocardial perfusi on imaging.Heart,2004,90 Suppl5:v2-v9.

3.M iller JM,Rochitte CE,Dewey M,et al.Diagnostic performance of coronary angiography by 64-row CT.N Engl JMed,2008,359(22):2324-2336.

4.Hamon M,Biondi-Zoccai GG,Malagutti P,et al.Diagnostic performance ofmultislice spiral computed tomography of coronary arteries as compared with conventional invasive coronary angiography:a meta-analysis.JAm Coll Cardiol,2006,48(9):1896-1910.

5.Gibbons RJ,Abrams J,Chatterjee K,et al.ACC/AHA 2002 guideline update for the management of patients with chronic stable angina—summary article:a report of the American College of Cardiology/American Heart Association Task Force on practice guidelines(Committee on the Management of Patients With Chronic Stable Angina).JAm Coll Cardiol,2003,41(1):159-168.

6.高雋.人工神經網絡原理與仿真實例.北京:機械工業出版社,2007,78-93.

7.Chang C,Lin C.LIBSVM—A Library for Support Vector Machines.http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

8.李磊,黃水平.支持向量機原理及其在醫學分類中的應用.中國衛生統計,2009(1):22-25.

9.武振宇,李康.支持向量機在基因表達數據分類中的應用研究.中國衛生統計,2007(1):8-10.

10.孔靈芝,胡盛獸.中國心血管病報告.北京:中國大百科全書出版社,2006,21-21.

11.解丹蕊,韓建新,薛惠鋒,等.非均衡數據的支持向量機新方法.計算機應用研究,2009(5):1654-1656.

The Application of Support Vector Machine in Building the Early Diagnostic Model of Coronary Artery Disease

SunXi-aoyu,YaoChen,KangXiaoping.DepartmentofEpidemiologyand Biostatistics,SchoolofPublicHealth,PekingUniversity(100191),Beijing

Objective To explore the application of the Support Vector Machine(SVM)in the diagnosis of Coronary Artery Disease(CAD);And to provide the theory basis for the usage of risk factors in the early diagnosis.Methods Backward logistic regression was used to choose significant variables.We used significant variables and 24-hour holter to build the SVM.Then different models were evaluated with the same test dataset.ResultsThe accuracy and sensitivity of the SVM which was built with risk factors were higher than 24-hour holter to diagnose CHD,and the specificity was lower.After contrasting the diagnostic capabilities among different SVM models,we found that the model built with 24-hour holter,combined with age,sex,diabetes,hypertension was better.The accuracy was 70.35%,the sensitivity was 90.27% and the specificity was 34.76%.ConclusionSVM could be used as the early diagnostic method for CHD,and the accuracy of early diagnosis would be higher in consideration of major risk factors.

Support vector machine;Coronary artery disease;Diagnostic model;24-hour holter

猜你喜歡
心電圖準確率向量
向量的分解
動態心電圖與常規心電圖診斷冠心病的應用
心電圖機檢定方法分析及簡化
《思考心電圖之176》
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
聚焦“向量與三角”創新題
《思考心電圖之174》
高速公路車牌識別標識站準確率驗證法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合