?

論數據挖掘技術在高職院校信息資源共享中的應用

2016-11-14 00:14劉珊珊
電腦知識與技術 2016年24期
關鍵詞:信息資源共享數據挖掘高職院校

劉珊珊

摘要:通過分析我國高職院校信息資源在“院校內部”,“院校-院?!币约啊霸盒?社會”共享過程中存在的主要問題,提出基于數據挖掘技術的信息資源共享模式,建議針對不同的資源共享方式,通過精確而有效的信息資源預處理過程,構建多個高職院校信息資源數據庫,以提升我國高職院校信息資源的共享,使信息資源能夠在高職院校教學科研,日?;顒右约吧鐣顒舆^程中得以充分并高效的利用。

關鍵詞:高職院校;信息資源共享;數據挖掘;數據庫

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)24-0010-03

信息資源,是指在以信息為核心的各類信息活動要素,為人類生活和社會活動所搜索并使用。在當前信息資源大爆炸的時代里,高職院校更是信息重要的集散地[1]。大量而繁雜的信息資源充斥著高職院校的各個角落。但是由于缺乏有效的探索分析手段,使得高職院校中的信息資源并沒有得到充分而有效的利用[1]。同時,高職院校信息資源也極度缺乏與社會大眾的共享[2, 3]。如何提高高職院校信息資源的共享率是高職院校信息資源處理過程中亟需解決的問題。得益于計算機網絡的迅速發展,數據挖掘技術應用而生。因此,本文通過探討數據挖掘技術在高職院校信息資源共享中的應用,來為我國高職院校信息資源共享建設提供有效一定的科學依據和建議。

1高職院校信息資源類型

所謂高職院校信息資源,就是指高職院校的日常教學、科研活動、校園生活中所產生和使用的各種信息的總和[4, 5]。通過資源共享機制,可以使得高職院校信息資源得以充分的利用并實現信息本身的價值。

高職院校信息資源可主要分類兩類:1)服務于教學科研的信息資源:主要指圖書館所藏紙質書籍、電子文獻資源、國內外電子文獻數據庫、教學信息資源等。高職院校是主要的教學科研活動場所。學校會有大量的信息資源是為了服務教學科研活動的順利進行。學校圖書館所收藏的大量的紙質書籍、文獻資源是高職院校教學科研的基礎。此外,隨著網絡技術的發展,高職院校通過購買大量的國內外文獻數據庫擴大了傳統以圖書館為基礎的文獻資源。在高職院校IP范圍內,可以方便查詢大量的國內外最新文獻資源。最后,教師所使用的教學課件是主要的高職院校內部最為重要的教學資源。2)豐富校園生活的信息資源:主要指為了豐富校園生活,高職院校經常進行的講座信息、培訓信息、招聘信息等信息資源。高職院校除了教學科研任務之外,高職院校通過豐富校園生活,使得學生在教學科研之外能夠有大量的機會得到全方面地提升和鍛煉。如大量的講座通知信息、培訓信息以及社會企業招聘信息等。

通過共享機制使得各類信息得以共享并充分利用,從而使高職院校的信息資源共享率、使用率得以最大化是高職院校信息資源共享亟需解決的問題。本文就以高職院校中服務于教學科研的信息資源為例,探討如何通過數據挖掘技術充分提高高職院校信息資源的共享。

2 高職院校信息資源共享中主要存在的問題

當前,我國高職院校信息資源在共享過程中存在大量的問題,主要可以劃分為三類:較差的“院校內部”共享;薄弱的“院校-院?!惫蚕?;缺乏的“院校-社會”共享。

1)較差的“院校內部”共享。高職院校圖書館中集中了高校教學與科研所需的絕大部分學術資源與文獻信息資源,是主要的信息集散地。但是,長期以來,我國圖書館,特別是高校圖書館,受到傳統的思想“以藏為主,以用為輔”的影響,大量圖書資源閑置,得以閱讀并使用的圖書資源極為有限,有近50%的信息資源長期處于“靜止”狀態。共享率、使用率極低。高職院校內部教學過程中所使用的教學課件是高職院校內部教學科研主要的一個信息資源。目前,教學課件的共享主要是在課間通過直接拷貝的方式從教師共享到學生(只限定在該課程的學生)。這在一定程度上大大降低了信息資源的使用價值。如何提升圖書文獻資源的共享,以及教學課件的共享是高職院校信息資源共享過程中最為重要的一個環節。

2) 薄弱的“院校-院?!惫蚕?。我國高職院校的主要職能是培養技術性人才,特別是培養應對市場需求的專業型人才?;谶@樣的培養目標。我國當前高職院校的資源相對單一而且局限。以計算機類高職院校為例,其所擁有的信息大多關于計算學科方面。如何加強和其他類型高校之間的其他學科信息的共享是未來高職院校信息共享的一個亟需解決的問題。通過“院校-院?!惫蚕憝h節既能優化學科交流,又能開拓學生視野。同時同類高職院校之間對于信息資源的共享問題重視度也較為不夠,這也是高職院校信息共享過程中需要面對的一個問題。通過“院校-院?!惫蚕?,既能加強同類高職院校之間的緊密合作又能提高信息量。得以實現知識的相互傳播和發展。

3) 缺乏的“院校-社會”共享。高職院校信息資源針對社會大眾的分享程度及其缺乏[2, 3, 6]。當前,我國高職院校是孤立于社會所存在的。絕大部分的高職院校針對社會是封閉的。高職院校內部的所有教學、科研信息資源記錄著科學活動,是人類社會的寶貴財富,它們科研幫助人們認識事物的發展規律,豐富自我知識素養,拓展思維角度等。但是,我國當前很少有高職院校愿意將自己的信息資源共享給社會大眾。這就在很大程度上限制了高職院校與社會之間的交流。因此促進“院校-社會”之間的信息資源共享是高職院校信息資源共享過程中亟需嘗試的一個環節。

3 數據挖掘技術的內涵

數據挖掘被稱為知識發現(knowledge Discovery in Database, KDD),即知識發現、尋找并最終使用的過程。目前數據挖掘技術廣泛應用到高職院校信息資源共享過程中以幫助高職院校內部龐大而繁雜的信息得以高校使用[12-14]。

數據挖掘主要分為三個具體步驟[15]:數據預處理階段、數據挖掘階段以及數據使用評估階段。

1) 數據預處理階段:將不同資源文本信息準備好之后,系統將進行相似度的計算,分析信息資源之間的關聯程度,并將信息資源存放到數據庫中作為源數據。2) 數據挖掘分析階段:可以通過提出問題或者輸入關鍵詞,借助數據挖掘技術創建一個模型來幫助獲取者獲取相似度最高的信息資源。3) 信息資源使用和評估:用戶使用信息資源之后,可以針對本次數據挖掘進行評估,其目的是為了信息資源共享平臺的更新優化以及后來著對該信息的搜索使用效率的提高。

有研究顯示,在一個完整的數據挖掘過程中,數據預處理要花費60%左右的時間,為了是挖掘內核能夠快速有效的挖掘出用戶想要的信息,就必須要為挖掘系統提供準確而又干凈的源數據[16-18]。但是遺憾的是,高職院校中未經處理的信息資源往往多而繁雜等諸多問題:如缺乏統一的標識和定義;原始數據中可能存在大量的重復信息造成數據冗余。

數據預處理主要是接受并理解用戶的發現需求.整理與需求相關的原始數據,根據背景知識中的約束性規則對數據進行合理性檢查,通過清理和歸納操作,生成工挖掘使用的源數據。主要分為四個步驟:

1)數據集成:數據集成的操作過程其實是為了將不同源的數據進行合并處理。2)數據清理:數據清理的過程是為了去除數據集成之后所產生的數據集中噪聲數據和無關數據。3)數據變換:數據變換是希望通過數據的某種特征來進行表示。4)數據簡化:在盡量保持數據原貌的前提下,通過數據變換過程中找尋的數據特征進行數據的篩選和縮減。

4挖掘技術在高職院校信息資源共享中的應用

分析我國高職院校信息資源共享中存在問題,“院校內部”,“院校-院?!币约啊霸盒?社會”三個共享問題的存在是我國高職院校共享中亟需解決的問題。為了應對這樣的問題,我們提出多平數據庫共享的理念。這樣的理念是基于合理并有效的信息資源預處理的基礎之上。

為了使得信息資源可以實現共享,特別是實現“院校-院?!惫蚕淼淖罱K目的,各共享高職院校之間必須保持信息資源實行統一的標識和編碼。所以基于數據挖掘技術的高職院校信息資源共享可以具體劃分為如下幾個步驟:

1)數據預處理。為了使得多個高職院校之間能夠進行后續順利的信息資源共享,其前提要有充分的數據預處理過程。信息資源保存方式存在差異等一系列的不標準、不規范的過程是在數據預處理過程中必須投入大量時間精力解決的問題。不同高職院校之間要指定統一的標準,并按照統一的標準對信息資源進行預處理并轉換為數據挖掘技術可以使用的數據形式。

數據的篩選和縮減是信息資源共享過程中特別要關注的問題,因為,有些信息資源針對不同的數據資源獲取者來說保密程度是不一樣的,所以,尊重一定的保密的基礎之上,進行信息資源的篩選并進行保密設置是高職院校信息資源預處理過程中極為重要的一個環節。最終形成數據庫。另外,在形成數據庫之后,通過更加嚴格的篩選方式,可以對該數據庫進行第二次的縮減,主要保留一些對社會大眾重要的一些信息,這些信息可能包括,高職院校主要科研成果,高職院校重要圖書信息資源等。而同時,這些信息資源必須是可以被社會大眾所理解并可能得到應用的一些信息。進而形成另外一個簡易的數據庫。

常見的數據庫中數據濃縮的方法是概念樹法。即在數據庫中,通過數據屬性對數據進行歸類,各屬性值和概念一句抽象程度不同可以構成一個層次結構,通常稱為概念樹,本文建議在進行數據預處理的過程中,所產生的數據庫可以用來進行“院校內部”以及“院校-院?!毙畔①Y源共享。

2)數據挖掘操作。數據庫準備就緒之后,數據挖掘過程即可開始。通過數據挖掘工具在數據庫中對數據進行挖掘,通過系統自動發現信息之間的關聯進而篩選出信息獲取者所需要的信息資源。

3)信息使用和評估。通過數據挖掘之后,所得到的信息可以直接被信息資源獲取者所使用。信息資源獲取者也可以通過一定的評估手段進行反饋利于信息資源共享的后期優化和完善。

5結語

數據挖掘技術主要是基于計算機網絡、統計分析等技術,并在近年來多個領域得到廣泛應用的一門技術?;跀祿诰虻男畔①Y源共享就是其中特別重要的一個應用方面。高職院校信息量龐大,信息資源復雜,基于數據挖掘技術的高職院校信息資源共享是當前高職院校信息資源共享的主要模式。針對高職院校在信息共享過程中所面對的諸多問題以及諸多不足。特別在針對“院校內部”,“院校-院?!币约啊霸盒?社會”三個共享方面的不足和薄弱。我們提出通過精確的信息資源預處理過程構建多個信息資源數據庫,進而解決共享薄弱問題從而實現高職院校內部龐大的信息的充分和有效的利用。

參考文獻:

[1] 郭俐虹.對我國高校信息資源開發利用現狀的思考[J].華中農業大學學報:社會科學版, 2007, (2): 119-121.

[2] 劉江玲.高校信息資源校地協同發展和共享機制探析[J].河南科技學院學報:社會科學版, 2014, (12): 11-13.

[3] 崔秀芬.地方高校信息資源與地方聯合共建共享初探[J].圖書館論壇, 2005, 25(5): 126-128.

[4] 程聰.高職院校信息資源的管理和利用[J]. 北京工業職業技術學院學報, 2012, 11(3):91-94.

[5] 丁文霞,付巧云.高職院校信息資源建設與運用研究[J]. 中國教育技術裝備, 2015, (19): 73-74.

[6] 肖希明.經濟發達地區文獻資源共享網絡的構建——以珠江三角洲地區為例[J]. 中國圖書館學報, 2000, 26(6): 44-46.

[7] 羅可,蔡碧野,卜勝賢, et al.數據挖掘及其發展研究[J].計算機工程與應用, 2002, 38(14): 182-184.

[8] 趙丹群.數據挖掘:原理、方法及其應用[J]. 現代圖書情報技術, 2000, (6): 41-44.

[9] 鐘曉,馬少平. 數據挖掘綜述[J]. 模式識別與人工智能, 2001, 14(1): 48-55.

[10] Han J, Kamber M. Data mining: Concepts and techniques[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2000, 5(4): 1-18.

猜你喜歡
信息資源共享數據挖掘高職院校
基于并行計算的大數據挖掘在電網中的應用
以信息資源共享為基礎的高校檔案管理模式探究
淺談我國高校圖書館信息資源的共享現狀及對策
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合