?

基于蟻群智能算法的研究文本分類

2016-11-09 23:23李波
數字技術與應用 2016年9期
關鍵詞:文本分類

李波

摘要:隨著信息技術的不斷發展,信息量也在呈現爆炸式的增長,對于海量、動態的文本信息,對其展開自動分類有著極為重要的現實意義。模式識別技術的進步對文本分類有著促進作用。文本分類由于具有樣本眾多、樣本類別數目不均、噪音多、類目多等特點,導致各模式識別運用于文本分類中均有著缺點。本文嘗試把蟻群智能算法運用到文本分類中,構建以蟻群智能算法為基礎的文本分類模式。

關鍵詞:群集智能 蟻群智能算法 文本分類

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2016)09-0126-01

1 基于蟻群智能算法文本分類模型

1.1 分類流程

基于蟻群智能算法文本分類模型大致上分為訓練與測試兩部分。訓練部分分為三個階段,規則構造、適應的計算、規則覆蓋訓練數據。利用訓練過程獲取分類規則,測試過程利用這些分類規則將文本集加以分類[1]。利用分類規則將文本加以分類的方法非常簡便,基于蟻群智能算法的訓練過程是其中較為重要的組成,其位代碼為:

初始化的規則集RS是空;訓練集含有M類;令TS是訓練文本向量集,當訓練文本向量集中第i個文本向量數大于閾值,運行ACORuleConstructer( )函數,更新規則集CTR是發現規則所覆蓋的文本向量

1.2 規則構造

偽代碼中涉及的構造函數ACORuleConstructer( )具體運算流程。需要進行如下操作。

第一步,初始化蟻群。將m只螞蟻進行隨機分布與第一個屬性上的某節點。第二步,初始化信息素。所有路徑包含的節點所含有的信息素設置為相同的濃度。其中:τij為條件所具termij有的信息素濃度;α是數據庫中不含類別屬性的所有屬性的總數;bi是屬性i全部可能被取的數據。第三步,蟻群移動。根據如下公式對下一節點進行選擇。

對于每一個屬性而言,它所具有的節點termij被選取的概率是Pij(t)。那么τij(t)是條件項的啟發函數值。α與β是重要的參數,說明的是螞蟻在進行路徑選擇時路徑上所具有的信息數濃度與termij啟發函數值所具備的重要程度。

第四步,規則修剪。規則有效性如何根據如下公式進行計算。

修剪方法的目的是依次去除可以使規則有效性能夠得到提升的特征節點,也就是說移去無用的特征節點,最終使特征節點的移除均會時規則有效性得到降低。第五步,若達到規則足夠良好或者迭代次數最大時,流程結束,否則重新從第三步繼續開始。第六步,更新信息素的濃度。根據如下公式進行屬性節點信息素濃度的改變。

2 模型驗證驗證方法及結果

本文對軍事、交通、經濟、教育四類中的數據集中隨機選取共計3240篇文本文檔進行測試。首先把全部數據平分為訓練集A與測試集B。之后將A與B的數據輸入到相應的程序中,使用χ2統計、信息增益、互信息、期望交叉熵等文本選取方式,取得與選取方式相對應的4組訓練集的向量矩陣,計作Aj(j=1,2,3,4)。測試集向量矩陣計作 Bj(j=1,2,3,4)[2]。之后將矩陣分別輸入到不同的分類公式中,得到不同的分類結果Cj(j=1,2,3,4)。選取其中結果最佳作為評價基準。最佳結果對應的矩陣輸入到基于蟻群算法中,得到分類結果,將這兩個結果進行比較。KNN、NB、SVM分類模型分別實用χ2統計、信息增益、互信息、期望交叉熵等特征選取方式得到MF和mF的憑據值。通過對測試結果進行分析發現,基于蟻群算法的分類效果相比于傳統的分類模型的分類效果有著更好的分類分類性能,從比較結果來看,在數據集進行特征選擇時,采用信息增益取得的效果最佳。

參考文獻

[1]李建軍,宋志章.基于混合智能算法的網頁文本分類仿真研究[J].科技通報,2012,06(06):152-154.

[2]杜芳華,冀俊忠,吳晨生,等.基于蟻群聚集信息素的半監督文本分類算法[J].計算機工程,2014,11(11):167-171.

[3]楊義先,李麗香,彭海朋,等.群體智能算法及其在信息安全中的應用探索[J].信息安全學報,2016,01(01):39-49.

猜你喜歡
文本分類
基于稀疏編碼器與集成學習的文本分類
基于組合分類算法的源代碼注釋質量評估方法
不同情境下中文文本分類模型的表現及選擇
基于內容的英語錄音教材標注研究與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合