?

基于聯機關聯的數據挖掘技術及可視化研究

2022-05-30 03:20施文李明東
客聯 2022年7期
關鍵詞:數據挖掘技術可視化

施文 李明東

摘 要:文章中對圖像挖掘概念的提出以及圖像挖掘與相關技術的聯系做了介紹;對目前的圖像挖掘的研究思路作一個總結;詳細論述了圖像挖掘的技術和方法。利用圖像挖掘的理論與方法可以從圖像中分析、挖掘出大量的圖像知識,這就涉及到這些大量圖像知識的管理和應用問題。對應用關聯規則挖掘技術挖掘出的規則的管理及應用進行分析、研究和探討,使圖像挖掘的結果能夠充分地被用戶所利用。

關鍵詞:聯機關聯;數據挖掘技術;可視化

圖像挖掘和基于內容的圖像檢索雖然都是針對圖像數據集進行操作,但圖像挖掘的概念遠遠超過了基于內容的圖像檢索的目的和要求,圖像挖掘的目標是從大量圖像集合中發現某種具有重要語義的模式,發現某種特征性的規則,更加強調對圖像內容的高度概括和總結。

一、數據挖掘理論研究基礎

數據挖掘的研究目標主要是為了從大量的科學數據中快速找到有用的新知識點和某些其中隱含的重要數據資料。在數據挖掘算法可以挖掘的數據類型方面,從表現形式來看,可以分為文字、數字、圖像、聲音等。

(一)數據挖掘相關算法的介紹

根據項目需求確定選取使用具體的挖掘算法,常見的數據挖掘算法有如下幾種:(1)神經網絡:主要指的是一種仿造人工和生物神經元的基本構造和其功能而設計開發的一種專門用于進行信息處理的系統。(2)決策樹:是一種基于樹的歸類算法,他能在無序的樣本中,提煉樹形的分類模型。(3)聚類:處理算法分析屬于一種無監督的機器學習分析算法,聚類分析的基本功能和主要作用就是如何完成一個聚類。

(二)功能帶動下的圖像挖掘

針對應用的不同,系統的功能模塊組成也不同,常見的包含有以下幾個部分:圖像獲取模塊:用于從圖像庫中抽取圖像數據集。預處理模塊:提取圖像特征,將計算的特征數據存放在特征數據庫中。搜索匹配模塊:用于匹配數據庫中存儲的圖像特征和各種元數據。知識發現模塊:針對圖像集利用描述、分類、聚類、關聯等方法挖掘出圖像中潛在的知識和模式。

二、關聯規則

關聯規則是數據挖掘的最重要內容之一,其模式屬于描述型的模式。一方面,在進行關聯規則挖掘的過程中,我們可以得出不同的概念層次的關聯關系,在領域相關的概念層次樹支持的背景下,利用關聯規則挖掘的方法可以得到反映不同層次規律的關聯規則。

(一)關聯規則的概念

關聯規則的一般性概念描述如下:

設I={1i,2i,……,ni }是n個不同項的集合,任務相關的數據D是數據庫的事務的集合,其中每個事務T是項的集合,使得T■I。每一個事務有一個標志符,稱作TID。設A是一個項集,事物T包含A,當且僅當A■T。關聯規則是形如A■B的蘊涵式,其中A■I,B■l,并且A、B之間的交集為空。

(二)關聯規則挖掘的一般步驟

關聯規則挖掘可以分解為下述兩個子問題:

第一,找出事務數據庫D中所有大于等于用戶指定最小支持度的項目集。具有最小支持度的項目集稱為頻繁項目集,項目集的支持度只包含該項目集的項。

第二,利用頻繁項目集生成所需要的關聯規則。對每一個頻繁項目集A,找到A的所有非空子集a,如果比率support(A)/support(a)>=最小置信度,就生成關聯規則:a>=(A-a).support(a)/support(a),即規則a■(A-a)的確信度。

關聯規則挖掘的主要步驟如下:

第一步,準備供挖掘的數據;第二步,設定最小支持度閾值和最小置信度閾值;第三步,根據數據挖掘的算法找出所有支持度大于或等于最小支持度閾值的頻繁項集;第四步,根據頻繁項集生成所有置信度大于或等于置信度閾值的強規則;如果生成的規則過多或者過少,則需要對支持度閾值和置信度閾值進行調整,并重新生成強關聯規則。

(三)Top-K關聯規則挖掘算法

在對關聯規則進行挖掘的過程中,通過實踐,發現最小的支持度比最小的置信度更難設計,因為最小的支持度取決于大多數用戶不可能知道的數據庫特性,而最小的置信度代表了用戶在關聯規則中真正想要的預期置信度,而且通常是很容易判斷。因此,該算法的目標是在滿足期望置信度的前提下,挖掘出具有最高支持度的Top-K規則。

三、數據挖掘系統的實驗設計

(一)效率驗證比較

表1是跟前端技術相關課程的關聯規則,從結果可以看到Spring Boot這一前端框架可以推出html5,docker等課程,Spring Boot是java的開源框架,它基于Spring4.0設計,是目前java最為流行的開源框架之一,html5是流行的前端腳本語言,根據結果可以看到,大多數用戶喜歡同時選擇html5課程與Spring Boot課程,其置信度為0.66。

四、總結

本文分析了圖像知識的存儲與管理的方法,提出了利用關系數據庫表格以及文本文件的方式進行關聯知識的存儲與管理的方法。在傳統的數據挖掘結果的基礎上,針對圖像挖掘的特點,結合關聯規則的挖掘方法,探討了規則的存儲和管理并且在實驗中加以論證。由于提取出的規則需要根據具體的領域相關知識進行解釋和應用,但限于本人在其它領域的知識貧乏所以沒有進一步討論,僅將規則存儲起來供其它領域的人士使用。

參考文獻:

[1]李紹華,王錚,梁藝多.基于數據清洗和關聯規則的圖書推薦算法[J].赤峰學院學報(自然科學版),2021,37(03):8-12.

[2]艾云昊,楊超宇,李慧宗.基于聚類的關聯規則后處理算法研究[J].黑龍江工業學院學報(綜合版),2020,20(09):126-131.

猜你喜歡
數據挖掘技術可視化
自然資源可視化決策系統
思維可視化
基于Power BI的油田注水運行動態分析與可視化展示
自然資源可視化決策系統
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
數據挖掘在計算機網絡病毒防御中的應用
數據挖掘技術及其在醫學信息領域的應用
基于Web的數據挖掘技術與相關研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合