?

大數據挖掘中的數據分類算法技術研究

2016-11-09 23:24郭龍
數字技術與應用 2016年9期
關鍵詞:技術研究

郭龍

摘要:近年來,隨著我國經濟的持續穩定增長以及國內國際環境的穩定,在為科學技術創造良好的發展空間的同時,也有效的推動了科學技術尤其是計算機技術的發展和創新。在這樣的背景之下,如何利用數據的分類算法,對相關的電子數據進行處理,成為了有關部門以及人員亟待解決的問題。本文基于此,分析了幾種處理數據分類算法,并討論如何在大數挖掘的背景下,利用數據分類算法技術對有關的數據進行分類處理。

關鍵詞:大數據挖掘 數據分類算法 技術研究

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)09-0127-01

當前,在經濟發展以及數字化辦公的背景之下,越來越多的行業都在實際的管理環節中引入了大數據挖掘的概念。事實上,這種情況的出現為計算機產業的發展帶來了機遇,也為其制造了挑戰。為了更好的面對時代發展的趨勢,對相關的數據進行有效的分類處理,相關的領域內逐漸加強了對于數據分類算法技術的學習和運用。目前,常用的數據分類類型包括:包括決策樹類、Bayes 類等,對此筆者進行相關具有的闡釋。

1 數據挖掘以及分類算法的含義

所謂的數據挖掘指的是在浩渺如煙的數據中之攫取有用的、價值比高的知識數據的過程,事實上,數據挖掘是數據庫技術發展的必然結果。由于數據挖掘順應了科技發展的需求,因為其在運用的過程中,涉及到諸如是零售、金融、醫療、通訊等諸多領域之中。

而分類算法指的則是通過對已知類別的數據進行分析,并對其中的分類規律進行總結,并以此為基礎,對新的數據類別進行預測。事實上,分類算法是一個將未知樣本分到幾個已存在類的過程,而這個過程的實現主要包含兩個方面:一是以已知的訓練數據集為依托,構建用于描述預定的數據類集或概念集的新模型,二是在新構建的模型的基礎上,對未知的數據進行分類,繼而推動了數據的合理處理。

2 數據挖掘的主要分類算法

由于在數據挖掘背景下,需要針對數據的具體情況,采取不同的分類算法進行相關的分類處理,基于此,就使得現存的數據分類算法存在多種,它們的出現能夠有效的推動數據的分類處理,繼而推動了計算機技術的發展。關于數據分類算法的種類,筆者做了相關的總結,具體內容如下。

2.1 決策樹分類算法

所謂的決策樹分類法,又被稱之為貪心算法。該種算法采取的是由上而下的分治方式,其最大的優點在于其能夠在雜亂無章的事例、數據中推導出以決策樹為表現形式的分類規律。事實上,這種分類算法是在實例的基礎上進行相關的數據歸類以及處理。由于其在實際的運用過程中對噪聲數據的處理具有良好的健壯性,因而其逐漸成為各領域在對數據分類處理的過程中,所采取的最為普遍的算法。

在決策樹算法的構建過程中,其每一個節點所表示的則是某一個屬性的測試,而分制代表的就是數據測試輸出。而在對未知的數據樣本進行分析的過程中,采取的往往是將樣本的屬性值與決策樹相比較的方法。為了更加直觀的了解到決策樹算法的形成、操作過程,筆者進行了相關的算法流程圖的繪制,具體的內容見圖1。

事實上,決策樹算法的傳統模式為C4.5算法,該種算法具有規則簡單,方便操作的優點,但是隨著近年來計算機技術的不斷普及和運用,使得需要處理的數據逐漸增多,而C4.5算法只能處理內存量較小的數據,在對大批量數據進行分類處理的過程中時常會出現對算法運行受阻而無法繼續運行的狀況。而這種情況也就導致了C4.5算法無法適應現階段的數據分類處理的需要,逐漸退出了的數據分類處理工作環節中。

但隨著相關人員結合時代發展的需要,使得C4.5算法在原有的基礎之上獲得了改良和突破,并推動了以C4.5算法為母本的SLIQ算法以及SPRINT算法的誕生。改良后的決策樹算法適應了大數據挖掘的需要,推動了數據的分類與處理工作的有序進行。

2.2 Bayes分類算法

Bayes分類算法是以概率統計學的相關理論知識為基礎而誕生的,雖然這種算法在實際的數據分類處理的過程中獲得了較為廣泛的運用,但是其也存在著諸多的缺點。

2.3 CBA分類數據算法

CBA分類數據算法是以關聯規則為基礎的數據算法。這種算法的實行往往需要依托于數據構造分類器。目前,CBA算法在運行的過程中主要依賴于Apriori算法技術的使用,這種技術的優點就在于能夠將潛在的數據關聯規則表面化,從而為方便了對于數據的歸納整理。

事實上,CBA分類數據算法也存在著諸多的缺點,比如因為數據分類是容易出現漏洞,繼而導致了相關的優化作用難以發揮出來,并最終降低了該種算法的運行效率。

3 結語

近年來,隨著計算機技術的發展,使得大數據挖掘逐漸成為時代發展的潮流,在這樣的背景之下,如何推動數據分類算法的運用成為了亟待解決的問題。本文筆者從大數據挖掘以及數據分類算法的定義入手,對數據分類算法的種類、發展以及相關的優缺點進行了相應的分析,筆者認為,在實際工作中對于數據分類算法的選擇,往往需要依據數據分析速度、可擴展性和結果的準確性等參數,繼而選擇出相應的數據分類算法。

參考文獻

[1]李玲俐.數據挖掘中分類算法綜述[J].重慶師范大學學報(自然科學版),2011(4):44-47.

[2]饒琛.大數據挖掘中的數據分類算法技術研究[J].電子技術與軟件工程,2015(14):204.

猜你喜歡
技術研究
裝配式住宅結構自動拆分與組裝技術研究
淺談機械動態與漸變可靠性理論與技術
工業建筑工程中大體積混凝土的施工技術分析
園林水景飾面工程施工技術探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合