?

使用K近鄰算法診斷乳腺癌

2020-10-21 12:24趙宇
大東方 2020年3期
關鍵詞:正確率良性編碼

趙宇

摘 要:隨著信息技術的不斷發展,醫療大數據的概念也逐漸被人類所熟知。通過對數據挖掘技術在乳腺癌各領域的研究現狀(乳腺癌基因研究、乳腺癌早期輔助檢查、力學藥物靶點識別、乳腺癌新中醫治療方法)的分析,展望數據挖掘技術應用于乳腺癌領域的前景,為數據挖掘技術在乳腺癌疾病的研究提供新思路。

關鍵詞:數據挖掘;乳腺癌

一、前言

乳腺癌已成為當前社會的重大公共衛生問題。全球乳腺癌發病率自20世紀70年代末開始一直呈上升趨勢。美國8名婦女一生中就會有1人患乳腺癌。中國不是乳腺癌的高發國家,但不宜樂觀,近年我國乳腺癌發病率的增長速度卻高出高發國家1~2個百分點。

二、數據源

我們將使用來自UCI的乳腺癌診斷數據集,該乳腺癌數據包括569例乳腺細胞活檢樣本,每個樣本包含32個變量。其中id變量是樣本識別ID,diagnosis變量是目標變量(M代表惡性,B代表良性)。其他30個變量都是由10個數字化細胞核的10個不同特征的均值、標準差和最大值構成。這10個基本特征為:

三、數據探索和預處理

.3.1 ?數據的探索

首先,搜集數據集如下圖所示,由于數量問題,只顯示其中部分,共計569個樣本,32個變量。

將整個數據集導入SPSS軟件中。

第一個變量為ID,無法為實際的模型構建提供有用的信息,所以需要將其刪除。diagnosis變量是我們的目標變量,我們首先統計一下其取值分布。觀察在我們的數據集中,惡性(M)和良性樣本(B)的分布情況。在正式建模之前需要將其進行整數編碼,將良性(B)編碼為0,將惡性(M)編碼為1。

通過統計我們的569個樣本中,良性樣本(B)和陰性樣本分別有212個,占比分別為62.7%和37.3%。其中作為示例,我們主要選取所有變量中的三個:radius_mean,area_mean和smoothness_mean。

通過SPSS軟件生成圖形對三個變量進行分析:觀察這三個變量的統計信息,發現它們的取值范圍不大一致。radius_mean取值范圍為6.981~28.110,area_mean取值范圍為143.5~2501.0,smoothness_mean取值范圍為0.05263~0.16340。不同變量的測量尺度不一致會影響K近鄰算法中的樣本距離計算。例如,如果上述三個變量直接參與距離計算,則area_mean變量將會對距離計算影響最大,從而會導致我們構建的分類模型過分依賴于area_mean變量。在應用K近鄰等涉及距離計算的算法構建預測模型之前,需要對變量取值進行標準化。常見的標準化方法有min-max標準化和Z-score標準化等。

3.2數據的標準化:

為了將自變量進行min-max標準化,使用min_max_normalize函數。該函數輸入為數值型向量x,對于x中的每一個取值,減去x的最小值,再除以x中數值的取值范圍。結果如下可見所有的變量都已經正確地標準化到0和1之間:

四、模型性能提升

4.1 測試不同k取值對模型效果的影響

我們將分別測試 k = 1,5,9,11時模型的效果。由于模型整體預測準確率已經很高。我們通過觀察假陰性(False Negative)和假陽性(False Positive)的數目和正確率(Accuracy)來對比不同k取值下模型的效果。

可見,當 k = 5 時,假陽性數量最少,且假陰性數量僅為1,正確率達到最高。當然,這也只是在171個測試樣本上的結果。

參考文獻

[1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.

[2]張旭東,孫圣力,王洪超.基于數據挖掘的觸診成像乳腺癌智能診斷模型和方法[J].大數據,2019,5(01):68-76.

[3]侯公楷.中醫藥防治乳腺癌進展[J].遼寧中醫藥大學學報,2016,18(05):249-253.

(作者單位:河北大學 生命科學學院)

猜你喜歡
正確率良性編碼
個性化護理干預對提高住院患者留取痰標本正確率的影響
小劑量左甲狀腺素對良性甲狀腺結節的治療效果及促甲狀腺激素水平分析
住院病案首頁ICD編碼質量在DRG付費中的應用
課程設置對大學生近視認知的影響
The arrow that saved my life救命之箭
良性甲狀腺結節需要治療嗎?
高效視頻編碼幀內快速深度決策算法
生意
生意
良性憤怒
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合