?

數據挖掘算法性能優化的研究與應用

2017-02-06 00:41梁霄波
無線互聯科技 2016年14期
關鍵詞:聚類算法性能優化

梁霄波

摘要:文章主要以數據挖掘算法的性能優化作為出發點,研究了相關的聚類算法,根據近些年來國際上對于聚類算法的原理、關鍵技術的研究分析了相關聚類個數K的相關作用和影響。希望通過文章的研究和報道能夠對研究數據挖掘提供幫助,使得研究更夠朝著更加有效和便捷的方向前進。

關鍵詞:聚類算法;性能優化;k-means

1

k-means經典算法

1.1基本思想

一般來說,k-means算法可以算作是聚類算法中最為經典和有效的算法,k-means算法最早的提出時間在1967年,主要提倡在算法的過程中把k當作算法的基本參數,通過對參數的運用將n個對象分為k個簇,該種分布方法能夠讓每個簇中的對象具有極高的相似性,但是簇與簇之間的差別性卻很高。一般來說,k-means算法的基本思想可以從4個方面加以闡述。

1.1.1隨機選取個對象作為初始類的質心

k-means算法具有極高的隨機性,這種隨機性也是其作為算法最基本的屬性,保證了數據的合理運用。由于隨機性的選擇對象,避免了主觀的判斷,使數據的后續運用能夠有效地進行。

1.1.2計算對象與各個類質心的距離,將對象劃分到距離其最近的類

同上文的隨機性一樣,這種由于算法自行運算而選擇的最優方案,能夠有效地縮短計算運行的時間,節約成本,提高效率,能夠更陜、更方便地進行。

1.1.3重新計算每個新類的均值

一般來說,k-means算法中的這一性能是在上文2個選擇的基礎上進行的。由于計算機的重新計算,使得算法的步驟得以維系,方便大家的計算和運用。

1.1.4若類的質心無變化,則返回劃分結果,否則轉步驟1.12

第四步算法從某種程度上來說是經過條件選擇后的再次算法運作。通過篩選,使得算法最終的結果顯現出來。

1.2 k-means算法的優缺點評價

一般來說,作為算法中的典型算法,k-means算法在算法的運用過程中使用的頻率非常高,其突出優點是算法特別簡單,能夠被人迅速接受和掌握。但是,k-means算法也有著本身問題。而k-means算法最為突出的不足就是具有極強的局限性,往往容易陷入局部最優的場面,初始聚類中心的劃分和優化比較麻煩,而且值的選定不夠靈活,需要在算法之前先進行選擇。

2k-means對初始聚類中心的改進

對于算法中結果的改進就是指借助對于某些方面的改動將算法運行得更高效,更能體現算法最終需要達到的目的。而對于聚類算法的改進,從另外一方面來講就是為了得到更好的聚類結果和更高效的聚類過程,就是希望能夠達到聚類的結果在同類間盡可能相似,不同的類間盡可能地體現出差別。對于k-means算法來說,其改進方法也遵循這樣的一個原則。從k-means算法提出至今,已經有很多人對于算法進行過改進,一般來說有以下幾個方面的改進方法。

2.1多次選擇法

這是一種在算法設計中經常使用到的一種方法,該種方法主要的目的在于通過對于初始類中心點的聚類過程的多次重復,由于重復的次數足夠其可以看作是一次隨機的偶然事件,所以在選擇的時候可以將選擇中的某一次看作是一個隨機事件。

2.2經驗法

經驗法相對于多次選擇法來說,主觀性要更強一些,在進行數據挖掘的過程中通過某種存在的既有經驗對數據進行選擇,將其中具有某種代表性的點作為初始的聚類中心。

2.3取樣法

取樣法也是算術中經常使用的一種方法,該種算術方法指的是在算術運算的過程中先將算術進行一次初次的整體分類,這樣可以產生一種分類中心。然后多次重復這樣的做法,選擇出多組的分類中心,通過對分類中心的分類和比較最終選擇出最佳的方案進行比較。

2.4密度法

密度法的運用從某種程度來說是最簡單的,密度法是指在運算之前為某一個區域中的點提前設置好某一個定值,然后通過轉移的方法將這個定值與其他的區域中的點進行比較,如果其他區域中點的密度與這個定值相近則說明這2個區域接近。最后通過相互選擇從而確定最符合的初始聚類中心。

2.5遞歸法

遞歸法的運用可以看作是最常見的一種初始聚類中心的尋找辦法,具體的做法是先把全部樣本看成一個類,樣本總均值點就是第一類的初始聚類中心;然后,由一類的初始聚類中心和離它最遠的一個樣本作為兩類的初始聚類中心。依此類推,由類的代表點和離它們最遠的一個樣本點作為類問題的初始聚類中心。

總的來說,k-means的改進方法還有很多,每種方法都具有一定程度的可行性。但是,需要注意到,在對k-means算法進行改進的時候,聚類中心本身就具有一個特性,在各種改進方法運行的時候需要對此予以滿足,這個特性就是無論采用何種改進方法,初始聚類中心要在不屬于同一個簇的情況下盡量靠近簇中心。

3k-means算法值的確定

k-means算法中,值的確定是具有一定難度的。不僅是因為值的準確程度難以在實際的算法運算過程中加以測定,因為準確值的確定需要一定程度的專業知識。而且,就另外一個方面來說,要確定值就必須對聚類有效性函數(最佳聚類數kopt)有一個較為清楚的認識。一般而言,在如今的世界領域內,確定k-means算法的值依然是一個不斷研究的過程。從1997年“kmax”的提出到近些年來“距離代價函數”的概念的廣泛運用,關于k-means算法的值的確定一直在進行,也在不斷豐富和完善。

4k-means算法在高校評教中的應用

4.1學生評教的基本介紹

在高校對于學生的教學管理這一方面,學生對于教師的評教可以看作是十分重要的回饋環節。評教通常設置在學生查看課程成績之前,即學生先對任課的教師進行評教,才能查看自己的學科成績。從某種程度上來說,這種做法有效地避免了學生由于對教師所給成績的不滿意而隨意評教的情況,能夠客觀地對各位教師的教學情況作一個了解。評教的存在對于學生、教師和管理者來說,都提供了相當大的便利。對于管理者來說,學生評教可以看作是一個了解教師以及學生的渠道,通過評教對整體的教學情況進行把握。對于教師來說,起到了一定程度的提醒作用,督促教師履行自己的教師義務,改正自己的教育教學措施,更有效地進行教育教學。對于學生來說,多了一個反饋的渠道,并不是如中小學一樣沒有一個反饋的對象,被動地學習,這種方法在某種程度上促進了學生的責任意識,有利于學生的成長和學習。

4.2學生評教中k-means算法的重要性

教學過程中學生的評教是一個十分復雜的過程,教師的教學是難以從某一個方面進行界定的。教師的評教一般包含了教師的教學內容是否讓學生滿意,教師的教學風格是否讓學生滿意,足夠幽默風趣,教師是否嚴格履行了自己的教學任務,不在教學過程中接電話,按時上課,備課是否充分,觀點是否鮮明,能否吸引學生的興趣等。這些數據的整理是需要分類的,而不是單純地進行統計就可以得出來的。對于學生來說,教師的行為是多樣性的,在很多情況下是難以用是或否進行片面的界定,而是需要運用聚類的算法進行一個大致的衡定。在具體的評教過程中,數據算法要能夠根據所掌握的數據分析一些確實能影響學生學習、掌握知識的具體因素,如教師在授課過程中是否還應該多介紹該學科最新發展動態、最新研究成果和啟發學生思維、創造良好課堂氣氛等,數據的分析要盡可能客觀詳盡,有理有據,讓數據能夠盡可能地反映出每一位教師的教學形象,看出每位教師的具體特點,對待工作有沒有盡心盡力,是否積極批改作業和輔導學生的進步等。

4.3學生評教過程中k-means算法的運用

k-means算法運用到學生評教的過程中主要是運用其聚類分析的特點,通過確定初始聚類中心將學生評教的數據與初始數據進行核對,從而分析教師的行為是否能夠讓學生滿意,通過對k-means算法中值的確定,確定較為精確的學生綜合評價結果,反饋出教師的教學形象從而幫助教師的教學進步。在具體的學生評教過程中,k-means算法可以采用上文所提到的那幾種改進方法,使得k-means算法更加方便,更能夠為人們所接受,也更加客觀、深刻地反映出數據本身所蘊含的強大的規律,便于管理者對于教師學生的管理、教師對于自我教學能力的提高和學生自我責任意識以及主動意識的培養和提高。

5結語

隨著社會的進步和發展,已經進入電子信息化的時代。大數據的時代要求人們對數據分析以及算法具有一定的基本常識,從某種程度上來說,k-means與人們的生活息息相關,很多方面都離不開其強大的算法支持。而在另外一個方面,數據挖掘算法是一個比較廣泛的概念,其所涉及的方面有很多,k-means算法只是其中較為典型的一種。文章主要根據k-means算法的概念、優點以及需要改進的地方談起,介紹了k-means算法需要重點關注的2個方面,并結合高校學生評教系統進行概述,闡述了在學生評教系統中k-means算法的運用及其作用。

猜你喜歡
聚類算法性能優化
SQL Server數據庫性能優化的幾點分析
基于K?均值與AGNES聚類算法的校園網行為分析系統研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合