?

一種統計分類方法的學習

2017-06-12 01:05辛夷
高中生學習·高三版 2017年6期
關鍵詞:分類器權重樣本

辛夷

1. 基于統計學習理論的機器學習方法

數據序列是一組按照某種順序排列的隨機數據,采用統計的方法可以有效分析數據的統計特征。機器學習方法的重要理論基礎是統計學,現代人工智能是基于大量數據的機器學習理論,機器學習的主要目的是對新的樣本盡可能給出精確的估計。

2.提升方法

隨機猜測一個是或否的問題,將會有50%的正確率。如果一個假設能夠稍微地提高猜測正確的概率,那么這個假設就是弱學習算法,如果一個假設能夠顯著地提高猜測正確的概率,那么這個假設就稱為強學習算法。提升方法是統計學習方法中常用的一種。提升方法就是從弱學習算法出發,改變訓練數據的權值分布,反復學習,得到一系列弱分類器,然后組合這些分類器,構成一個強分類器。

提升方法的基本思路:

(1)剛開始訓練數據中的每個樣本被賦予一個相等的權重,這些權重構成分類樣本[D];

(2)在訓練集上訓練出一個弱分類器并計算該分類器的錯誤率[ε],根據分類器的錯誤率可以計算出該分類器的權重[α=1/2ln(1-εε)];

(3)根據上一次分類器的權重調整每個訓練樣本的權重,分對的樣本權重降低,分錯的樣本權重升高,然后在同一訓練集上再次訓練弱分類器;反復訓練,直到錯誤率達到要求為止。

3.實例解析

假設現有“+”與“-”兩種類別的數據,共10個數據點構成的數據集,我們用水平或垂直線作為分類器進行分類。初始情況下,每個樣本的權重[D1](如圖1)是相等的,為0.1。

<img src="http://img1.qikan.com.cn/qkimages/gzss/gzss201706/gzss20170633-1-l.jpg" alt="" />

猜你喜歡
分類器權重樣本
學貫中西(6):闡述ML分類器的工作流程
權重漲個股跌 持有白馬藍籌
基于AdaBoost算法的在線連續極限學習機集成算法
直擊高考中的用樣本估計總體
隨機微分方程的樣本Lyapunov二次型估計
企業財務危機預警集成預測模型比較分析研究
各省輿情熱度榜
基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
基于支持向量機的蛋白質交互界面熱點的預測的研究與改進
七年級數學下冊期末檢測題(B)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合