?

機器學習的分類、聚類研究

2020-04-14 04:54李玥
電腦知識與技術 2020年4期
關鍵詞:means算法機器學習

李玥

摘要:大數據時代帶來的數據爆炸,是機器學習發展的新機遇。本文將介紹機器學習的學習方式,機器學習的分類、聚類算法的異同和應用,并介紹樸素貝葉斯分類算法和k-means聚類算法兩種常用算法。同時思考機器學習為人們生活帶來便利的同時所產生的負面影響。

關鍵詞:機器學習;監督學習;無監督學習;樸素貝葉斯算法;k-means算法

中圖分類號:TP181

文獻標識碼:A

文章編號:1009-3044(2020)04-0161-02

收稿日期:2019-10-15

1 概述

大數據時代的來臨使得數據量迅速膨脹,也為機器學習提供了更廣闊的舞臺。本文將對機器學習中分類和聚類及其常見算法進行論述。相信機器學習未來必將大放異彩。

2 機器學習

2.1 機器學習的定義,

相較于依托專業公式進行純粹計算,機器學習通過模仿人類學習的過程,使計算機通過算法分析數據、從中學習、生成并優化模型,以此得到識別新數據、預測、自主決策等能力。

2.2 特征

特征是一類對象的某種本質特性的抽象表示,通常會使用特征的集合即特征向量來指代對象本身。機器學習中用于訓練和測試的數據通常源自各種系統,其格式、質量各不相同。為了方便算法使用這些數據訓練模型,需要根據要研究的問題選擇特征并將這些數據轉為特征向量的集合。因此,原始數據的質量,特征的選擇等對生成模型的好壞甚至比算法本身更重要。

2.3 機器學習的學習方式

機器學習有多種學習方式,而監督學習和無監督學習是最常見的。監督學習要求每個樣本除了特征值外還應包含特殊的標記,其通過特征值預測標記,再對比真實的標記計算誤差,根據誤差使用遞歸算法修正模型。監督學習最常見的任務便是分類與回歸。無監督學習則不需要標記,其按照特定的指標和方法探索實例之間的相似程度,或是研究特征之間的取值關系等。無監督學習最為重要的研究問題包括聚類、關聯分析、降維等。

其他的學習方式還包括通過在迭代過程中對不同選擇進行不同反饋來優化模型得到最優決策的強化學習?;旌狭吮O督和無監督學習的半監督學習。把模型作為經驗訓練的遷移學習等。

3 機器學習的分類和聚類

3.1 分類和聚類的異同

分類算法是根據一些事物的特征,將事物劃分至其對應類別。因此分類要滿足所有的類別都是已知的前提。分類在機器學習中要使用監督學習,讓標記為實例的類別。要評價分類模型的好壞時,可基于預測類別和正確類別進行比較來分析。而聚類算法最重要的是選擇合適的度量機制,用以度量任意兩個對象的相似程度,亦可以說是他們之間的距離。因為聚類的主旨便是認為事物越是相似,兩者越可能是同類。聚類屬于無監督學習,而因其不包含標記,類型本身是未知的。所以聚類的結果常會稱若干實例聚為一簇,而不是稱聚為一類。評價聚.類模型比較復雜,但通?;谌缦略瓌t:盡可能讓每個簇包含的樣本更加相似,同時保證不同簇之間的距離盡可能大。

3.2 樸素貝葉斯算法

樸素貝葉斯分類算法源自古典數學,依賴于條件獨立假設,其指的便是不同特征的取值相互獨立,對應公式為:

P(X;=x1,X,=x2)=P(X,=x)P(X,=x2)

另外還依賴于條件概率公式:

P(X,=x|C =c])= P(X,=x,C =c|)

P(C1 =c])

但實際情況中不同特征取值常常相互影響,存在依賴關系。且模型效果極為依賴于數據的好壞,一旦數據存在過大偏差,生成的模型將失去使用價值。因此樸素貝葉斯算法改進常集中于解決特征值之間的依賴關系,使用平滑技術等減少數據對模型的影響。

3.3 k-means算法

k-means的核心是為每個簇假定了 簇中心。首先通過隨機指定k個簇中心點,計算每個樣本點至各中心點的距離,取距離最近的作為其所屬簇,以此進行一次聚類。這時可以根據聚類結果重新計算簇中心點,與之前的簇中心點進行比較,將新的中心帶入算法繼續迭代以之修正模型直到兩者誤差小于某-常量。初期簇中心點的選取對算法的效果至關重要,它決定了迭代次數和最終聚類效果的好壞。算法的整個過程類似于最優化求解,初期中心點的隨機性使得結果常為局部最優解。因此k-means算法的改進通常集中于如何選取初期的簇中心點,使中心點之間距離盡可能遠,使中心點分布更加平均,或者使其更接近數據分布的疏密情況,這些措施都可以改進算法的執行速度和最終聚類的效果。

3.4 應用方向

分類算法在垃圾郵件識別等相關識別領域多有建樹。例如人們在使用銀行卡、支付寶消費的同時也產生了大量數據,銀行等金融機構可以對用戶的操作數據使用分類算法甄別出是否為本人行為,保護賬戶安全。也可以根據用戶的行為數據找出風險用戶,減小自身經營風險。同樣分類算法也在天氣預報產量預測和生產風險評估等領域得到廣泛應用。同樣在進行用戶畫像時,聚類算法也必不可少。而基于相似的人可能有相同的愛好,這樣推薦算法中協同過濾的核心思想,聚類算法得以在協同過濾中大展拳腳。

4 總結與反思

機器學習的前景廣闊,分類和聚類等算法各有千秋。分類和聚類結合使用可以互相驗證,互相完善,這也是一種半監督學習的思路。同時現階段最火的基于深度學習、神經網絡進行的模式識別,也可歸屬于監督學習的分類算法。但機器學習為我們的生活帶來便利的同時也存在一些負面影響。近期新聞提到,,部分酒店等商業機構利用大數據和機器學習等技術,甄別出對數字不敏感的用戶,悄悄提高對其服務的價格牟利。有關部門應加強查處力度,保障用戶信息安全,使技術不被濫用。參考文獻:

[1]李清霞,魏文紅,蔡昭權.混合用戶和項目協同過濾的電子商務個性化推薦算法[J].中山大學學報:自然科學版,2016,55(5):37-42.

[2]朱軍,胡文波.貝葉斯機器學習前沿進展綜述[J].計算機研究與發展,2015,52(1):16-26.

[3]何清,李寧,羅文娟,等.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327-336.

[4]陳凱,朱鈺.機器學習及其相關算法綜述[J].統計與信息論壇,2007,22(5):105-112.

[通聯編輯:唐一東]

猜你喜歡
means算法機器學習
前綴字母為特征在維吾爾語文本情感分類中的研究
SIFT算法在木材紋理分類上的應用
基于支持向量機的金融數據分析研究
基于數據抽樣的自動k?means聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合