?

基于改進遺傳算法的支持向量機微信垃圾文章識別

2016-03-25 17:43梁闊洋?k

計算技術與自動化 2015年4期

關鍵詞：特征選擇參數優化支持向量機

梁闊洋?k

摘要：近幾年，隨著微信的快速發展和普及，微信已經成為智能移動設備必備的應用之一，但與之同時也出現了大量微信詐騙信息、垃圾廣告等，給人們帶來了極大的困擾。本文將從搜狗微信搜索中抽取微信文章樣本，將微信垃圾文章識別看做文本分類問題，采用支持向量機對樣本進行分類模型的訓練，并應用改進的遺傳算法對支持向量機的參數進行優化。文中詳細的介紹了改進遺傳算法在支持向量機上的應用，相比傳統的支持向量機，采用改進遺傳算法對支持向量機參數進行優化，提升了模型準確率和優化效率。在文章的最后進行了由15000篇微信文章所形成的測試集上的分類模型效果實驗，實現結果表明，本方法能夠達到94.7%的準確率，非常準確的識別微信垃圾文章。

關鍵詞：支持向量機；遺傳算法；特征選擇；參數優化；垃圾文章

中圖分類號：TP391.1文獻標識碼：A

1引言

隨著微信應用的快速發展和普及，微信已經成為移動智能設備中必備的應用之一，與之同時也出現了大量微信詐騙信息，垃圾廣告等垃圾文章。這些信息不僅浪費了用戶的帶寬和時間，同時也對互聯網的安全構成了較大的威脅。因此如何識別此類微信文章顯得格外重要。

傳統的解決方案為黑名單方法，黑名單方法收集發表垃圾文章的用戶，將用戶ID加入垃圾用戶黑名單列表。但由于微信用戶量大、并且增長速度快、黑名單方法不僅實施周期長，并且工作量大。

微信垃圾文章識別的過程可視為一個文本分類的過程，對于文本分類問題，樣本經過特征選擇后，每一個樣本被當做一個n維特征向量空間中的向量、作為機器學習算法的輸入。常用的機器學習方法有：K-近鄰（K-Near Neighbor）[1]、樸素貝葉斯（Na

4實驗結果

實驗數據來源于搜狗微信搜索數據源，實驗共選取了5組訓練集，和2組測試集。

第一，采用不同數量的訓練集對模型進行訓練，記錄模型訓練的準確率、召回率、F值，如表2：

通過對不同數量的訓練集對模型進行訓練，可以看出，當采用TRAIN1，數量為685對模型進行訓練，準確率、召回率、F值非常低，隨著訓練樣本的增多，準確率、召回率、F值的提升非?？?，這說明訓練樣本數量對模型整體的訓練效果有非常大的影響。

采用TRAIN5所訓練的模型，進行3組不同數量測試上的實驗，幾率其準確率、召回率、F值，如表3：

從上表可以看出，使用同一訓練集，準確性稍有升高，幅度不大，表明模型是相當穩定的。召回率與F值稍有下降，說明訓練集中并沒有覆蓋所有實際情況，某些特殊實例沒有被包含進來。

從上面兩組實驗結果可以得到，基于改進遺傳算法的支持向量機微信垃圾文章識別，對于搜狗微信搜索數據源具有良好的效果，其實驗結果有益于后續研究的繼續進行。訓練所得模型的準確率、召回率、F值能夠滿足實際應用的需求。

5結論與展望

本文采用支持向量機對微信文章垃圾文章進行識別，并應用改進的遺傳算法對支持向量機進行參數優化，最終得到最優的參數組合，從了得到了能夠進行良好分類的分類器。今后的主要工作集中在優化特征選擇，對某些重要特征進行加權處理，并考慮平衡數據和費平衡數據對分類器訓練效果的影響，使得分類的準確率、召回率、F值獲得更大程度的提高。

參考文獻

[1]ANDROUTSPOULOS I，PALIOURAS G，KARKALETSIS V，et al. Learning to filter spam email： A Comparison of a Naive Bayesian and a MemoryBased Approach[C].Proceedings of the workshop on machine learning and textual information access， 4th European conference on principles and practice of knowledge discovery in databases. Lyon， France： [sn.].2000：1-13

[2]ANDROUTSOPOULOS I，KOUTSIAS J，CHANDRINOS K， et al. An evaluation of nave Bayesian antispam filtering[C].Proceedings of the 11th European conference on machine learning.Barcelona， Spain：[sn.].2000：9-17.

[3]CARRERAS X，MARQUEZ L. Boosting trees for antispam email filtering[C].The Forth International Conference on Recent Advances in Natural Language Processing. Bulgaria： Tzigov Chark.2001：58-64.

[4]CORTES C，VAPNIK V. Support vector networks[J].Machine Learning.1995，20（1）：273 –329.

[5]平源. 基于支持向量機的聚類及文本分類研究[D].北京：北京郵電大學，2012.

[6]KUBAT T M，MATWIN S. Addressing the Curse of Imbalanced Training Sets： OneSide Selection[C]. Proceedings of the 14th International Conference on Machine Learning. USA： Nashville.1997：217-225.）

[7]李人厚.智能控制理論和方法[M].陜西：西安電子科技大學出版社，2005.

[8]楊淑瑩，著.模式識別與智能計算—— Matlab技術實現[M].北京：電子工業出版社，2008..

[9]施聰鶯，徐朝軍，楊曉江. TFIDF算法研究綜述[J]. 計算機應用，2009，S1：167-170+180.

[10]DASH M， LIU H. Feature Selection for Classification[J]. Intelligent Data Analysis， 1997， 1（3）： 131-156.

猜你喜歡

特征選擇參數優化支持向量機

基于智能優化算法選擇特征的網絡入侵檢測

現代電子技術(2016年23期)2017-01-12

基于神經網絡的動力電池組焊接參數優化研究

科教導刊·電子版(2016年30期)2016-12-26

動態場景中的視覺目標識別方法分析

電子技術與軟件工程(2016年20期)2016-12-21

論提高裝備故障預測準確度的方法途徑

價值工程(2016年32期)2016-12-20

故障診斷中的數據建模與特征選擇

電腦知識與技術(2016年25期)2016-11-16

研究LTE與WCDMA系統間小區互操作與參數優化

電腦知識與技術(2016年24期)2016-11-14

基于熵技術的公共事業費最優組合預測

價值工程(2016年29期)2016-11-14

基于磁流變技術的汽車發動機隔振系統的參數優化

科技視界(2016年23期)2016-11-04

基于支持向量機的金融數據分析研究

科學與財富(2016年28期)2016-10-14

reliefF算法在數據發布隱私保護中的應用研究

電腦知識與技術(2016年15期)2016-07-04

計算技術與自動化2015年4期

計算技術與自動化的其它文章: 一類網絡控制系統的魯棒H∞狀態反饋控制器設計; 線性時滯系統穩定的充分必要條件; 動態規劃最優控制在非線性系統中的應用; 氧氣調節器供氧濃度模糊控制方法的仿真研究; 基于數據比對的稱重罐漏料監控系統的開發

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合