桑沐晨 王業
摘要:針對傳統的Apriori算法在處理大規模數據集時面臨的計算復雜度高和內存消耗大的問題,提出了在使用二進制編碼的Apriori算法并采用Ray分布式框架以及與Sample動態采樣算法結合——RBE-Apriori算法。將事務、候選集、頻繁項集轉化為二進制,并使用Sample動態采樣算法對候選集進行處理,在生成關聯規則的過程中使用Ray分布式框架,可以有效的減少生成關聯規則的時間,從而提高算法效率。通過實驗結果表明,改進的算法相比于經典Apriori算法,在生成相同頻繁項集下,組合次數減少了65%,生成關聯規則的時間上減少50%。
關鍵詞:數據挖掘;關聯規則;Apriori算法;Apriori改進算法;頻繁項集
中圖分類號:TP301 文獻標識碼:A
文章編號:1009-3044(2024)04-0080-04