?

Apriori關聯規則在甲狀腺結節病案分析中的應用

2011-03-11 14:07劉尚輝鄭德祿
中國衛生統計 2011年2期
關鍵詞:置信度數據挖掘關聯

劉尚輝 王 露 鄭德祿

甲狀腺結節是臨床常見的病癥,可由多種病因引起。甲狀腺結節可分為單發性結節和多發性結節,結節的大小、位置、質地、功能及其臨床意義各有不同。據流行病學資料統計,可觸及的甲狀腺結節在成人中的患病率為4%~8%。尸檢病理學檢查發現的普通人群結節患病率為50%〔1〕。據有關研究發現,甲狀腺結節的發病率與地域、性別以及年齡相關,碘缺乏地區或碘攝入過多沿海地區的甲狀腺結節發病率較高。目前,甲狀腺結節的發病率逐年上升,結節的發生率隨年齡的增長而上升。

材料與方法

1.資料來源 甲狀腺結節資料來源于中國醫科大學附屬第一醫院病案室,采集2000~2009年間的甲狀腺結節病例數據信息。內容包括相應的各項相關指標,具體為患者住院號、性別、年齡、結節彩超檢查結果、ECT檢查結果、家族病史、既往病史、細針穿刺結果、FT3、FT4、TSH、TGAB、TPOAB、WBC 、中性粒細胞數、淋巴細胞數等。

2.數據處理 分析采集的原始數據,利用數據挖掘專業知識對目標數據集中的“臟數據”進行清洗,使數據記錄量和特征屬性的數量都得以精簡。再根據關聯分析特征屬性的要求將本分析的數據轉化為布爾型的二值數據,經過數據預處理之后,所包含的主要特征如表1所示。

在本研究中,通過病人的疾病、年齡、性別、甲功系列等之間關系進行數據挖掘,以期發現一些潛在、有意義的關聯規則。

方 法

1.關聯規則定義〔2〕關聯規則主要反應了事物之間的關聯性。對反映同一事物的一條記錄而言,若其具有特征屬性A的同時,也具有特征屬性B,則稱特征屬性A和B是關聯的,即A→B。這種關聯性僅表現為“共生現象”,即兩者同時存在,但并不一定表現兩者之間必然存在前后因果的關系。在醫學領域這種關聯現象也是存在的,如某種疾病可能同時表現出幾種相關聯的癥狀,臨床上的疾病鑒別診斷通常是以某些相關的檢驗和檢測指標為根據的,因此,關聯分析能為鑒別診斷提供依據。

表1 甲狀腺結節關聯分析的主要特征屬性

2.關聯規則的判定指標 作為數據挖掘的方法之一,關聯規則的有效性也要進行驗證。該規則的質量和重要性可以通過支持度和置信度做判斷,支持度指標表達了某一關聯規則在總體中發生的概率,是關聯規則重要性的定性度量。置信度指標表達了構成關聯規則的一個特征屬性A發生時,另一個特征屬性B的發生概率,反映了這兩個特征屬性之間關聯的強度。如果通過數據挖掘得出的某條規則同時滿足最小支持度和最小置信度則稱其為強關聯規則。

3.挖掘關聯規則的方法 關聯規則的挖掘方法通過統計軟件Clementine 11.1V來實現,采用其中經典算法Apriori建模,有效地實施了本關聯分析。主要是通過確定最小支持度和最小置信度這2個參數來產生規則的項集最大數目,該研究設定最小支持度為0.10,最小置信度為0.80。輸出結果中包含滿足要求的所有規則以及每條規則的支持度、置信度。

結 果

甲狀腺結節的發病與性別、年齡、甲狀腺功能系列、血常規系列檢驗指標的關系如表2所示。設置支持度為0.10,置信度為0.8后,共形成2780個強關聯規則,為了從這些規則中提取出有價值和感興趣的知識,本研究設計了一個模板,規定了規則的組成形式為:anything→RESULT=t,從而在強關聯規則中,再次選出右邊結果是RESULT=t,即結果是“結節”的規則,最終得到215條規則。經過臨床免疫科專家解釋及檢驗所產生的規則結果表明:①甲狀腺結節的發病與性別、年齡關系密切,且40歲以上女性發病幾率高,特別是60歲以上女性出現結節的概率更大。②甲狀腺功能系列(FT3、FT4、TSH)不論正?;虍惓>沙霈F結節癥狀,且以甲功正常的支持度與置信度更高。③甲狀腺抗體(TGAB、TPAB)不論正?;虍惓>沙鲰椊Y節癥狀,且以抗體正常的支持度與置信度更高。④血常規中粒細胞、白細胞總數正常情況下出現結節都有統計學意義。

表2 Apriori算法所形成的關聯規則

討 論

本研究中為了進一步探討年齡與結節的關系,我們對Apriori算法模型做了新的設置,通過設置特征屬性彩超檢查結果有無結節為分析的輸出項,其他屬性為輸入項,且最大前置項數為1,得到甲狀腺結節與年齡的關系為40歲以上女性出現甲狀腺結節成逐年上升趨勢,這從置信度可以明顯看出來,0.96(60歲)>0.89(50歲)>0.76(40歲),40歲以下沒有統計學意義。本研究中性別及年齡與甲狀腺結節關系的結論與國內外報道基本一致〔3,4〕。

通過上述分析可見,關聯規則挖掘能夠帶給我們一些有價值的信息,而這些信息用傳統的數據分析方法很難發現。在進行關聯規則分析時,要防止產生數量過多的,且包含過多冗余信息的規則,我們采用“模板”來規定出需要的關聯規則形式,以此來精簡所產生的關聯規則數量。本研究實現了從10年積累的大量數據中發現了與甲狀腺結節相關的模式和規則,以幫助人們加深對甲狀腺疾病的理解和重視。

隨著我國衛生事業改革的不斷深入,醫院信息化建設的不斷完成,充分利用電子病歷系統中寶貴的臨床醫學信息資源,建立臨床診療信息采集平臺,進而開展數據挖掘是大有可為的〔5〕。今后我們將更好地利用豐富的電子病例資源,挖掘和揭示出更多有價值的知識,以期能夠更好地為醫療衛生服務。

1.羅斌鈺,趙詠桔.甲狀腺結節的超聲診斷.國際內分泌代謝雜志,2008,5:297-298.

2.章魯,龔著琳,等.生物醫學數據挖掘.上??茖W技術出版社,2008,2.

3.馮尚勇,劉超,等.江蘇高淳、楚州地區社區人群甲狀腺結節流行特征研究.南京醫科大學學報,2006,8:717-719.

4.Cooper DS,Doherty GM,Haugen BR,et al.Management guidelines for patients with thyroid nodules and differentiated thyroid cancer.Thyroid,2006,16(2):1-33.

5.胡鏡清,劉保延,王永炎.中醫臨床個體化診療信息特征與數據挖掘技術應用分析.世界科學技術:中醫藥現代化,2004,1:14-16.

猜你喜歡
置信度數據挖掘關聯
置信度輔助特征增強的視差估計網絡
一種基于定位置信度預測的二階段目標檢測方法
硼鋁復合材料硼含量置信度臨界安全分析研究
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
“一帶一路”遞進,關聯民生更緊
正負關聯規則兩級置信度閾值設置方法
奇趣搭配
智趣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合