?

基于Spark框架的高效KNN中文文本分類算法

2017-01-13 20:13于蘋蘋倪建成姚彬修李淋淋曹博
計算機應用 2016年12期
關鍵詞:聚類分類號因子

于蘋蘋+倪建成+姚彬修+李淋淋+曹博

摘 要:針對K-最近鄰(KNN)分類算法時間復雜度與訓練樣本數量成正比而導致的計算量大的問題以及當前大數據背景下面臨的傳統架構處理速度慢的問題,提出了一種基于Spark框架與聚類優化的高效KNN分類算法。該算法首先利用引入收縮因子的優化K-medoids聚類算法對訓練集進行兩次裁剪;然后在分類過程中迭代K值獲得分類結果,并在計算過程中結合Spark計算框架對數據進行分區迭代實現并行化。實驗結果表明,在不同數據集中傳統K-最近鄰算法、基于K-medoids的K-最近鄰算法所耗費時間是所提Spark框架下的K-最近鄰算法的一個范圍3.92~31.90倍,所提算法具有較高的計算效率,相較于Hadoop平臺有較好的加速比,可有效地對大數據進行分類處理。

關鍵詞:K-最近鄰;聚類;收縮因子;K-medoids;Spark;并行化計算

中圖分類號: TP391.1

文獻標志碼:A

文章編號:1001-9081(2016)12-3292-06

猜你喜歡
聚類分類號因子
基于模糊聚類和支持向量回歸的成績預測
一類常微分方程的解法研究
直徑不超過2的無爪圖的2—因子
圖的齊次因子分解
巧解難題二則
基于流形學習的自適應反饋聚類中心確定方法
A Study of Chinese College Athletes’ English Learning
基于密度的自適應搜索增量聚類法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合