?

基于Spark框架的高效KNN中文文本分類算法

2017-01-13 20:13于蘋蘋倪建成姚彬修李淋淋曹博

計算機應用 2016年12期

關鍵詞：聚類分類號因子

于蘋蘋+倪建成+姚彬修+李淋淋+曹博

摘要：針對K-最近鄰（KNN）分類算法時間復雜度與訓練樣本數量成正比而導致的計算量大的問題以及當前大數據背景下面臨的傳統架構處理速度慢的問題，提出了一種基于Spark框架與聚類優化的高效KNN分類算法。該算法首先利用引入收縮因子的優化K-medoids聚類算法對訓練集進行兩次裁剪；然后在分類過程中迭代K值獲得分類結果，并在計算過程中結合Spark計算框架對數據進行分區迭代實現并行化。實驗結果表明，在不同數據集中傳統K-最近鄰算法、基于K-medoids的K-最近鄰算法所耗費時間是所提Spark框架下的K-最近鄰算法的一個范圍3.92～31.90倍，所提算法具有較高的計算效率，相較于Hadoop平臺有較好的加速比，可有效地對大數據進行分類處理。

關鍵詞：K-最近鄰；聚類；收縮因子；K-medoids；Spark；并行化計算

中圖分類號： TP391.1

文獻標志碼：A

文章編號：1001-9081（2016）12-3292-06

猜你喜歡

聚類分類號因子

基于模糊聚類和支持向量回歸的成績預測

華東師范大學學報（自然科學版）(2019年5期)2019-11-11

一類常微分方程的解法研究

贏未來(2019年15期)2019-08-14

直徑不超過2的無爪圖的2—因子

數學學習與研究(2018年7期)2018-05-16

圖的齊次因子分解

課程教育研究·新教師教學(2017年33期)2018-05-07

巧解難題二則

山東青年(2017年11期)2018-03-29

基于流形學習的自適應反饋聚類中心確定方法

軟件(2017年6期)2017-09-23

A Study of Chinese College Athletes’ English Learning

課程教育研究·新教師教學(2016年1期)2017-04-10

基于密度的自適應搜索增量聚類法

電子技術與軟件工程(2016年23期)2017-03-06

計算機應用2016年12期

計算機應用的其它文章: 全卷積網絡結合改進的條件隨機場循環神經網絡用于SAR圖像場景分類; 大輸液異物檢測圖像快速位移補償方法; 基于組合分類算法的源代碼注釋質量評估方法; 基于軟件層次化模型的軟件測試數據生成; 基于軟件代碼演化信息的克隆譜系提取方法; 克隆代碼有害性預測中分類不平衡問題的解決方法

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合