?

數據挖掘技術在招生數據管理中的作用

2016-06-30 19:03古亮劉培艷
電腦知識與技術 2016年14期
關鍵詞:數據管理數據挖掘

古亮+劉培艷

摘要:該文通過對高校招生數據的分析,歸納總結出高校招生數據,尤其是藝術類招生數據的特點,并對其進行歸類。然后對數據挖掘技術進行了陳述,試圖將數據挖掘技術應用到高校招生數據的管理和分析中,提高高校招生數據管理的有效性,節省時間和人力物力成本。

關鍵詞:高校招生;數據管理;數據挖掘

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)14-0001-02

高校招生工作是高校進行人才培養的第一步,是整個高等教育過程中的基礎性工作,其影響力涉及千家萬戶,涉及全國的每一位考生。近年來,高校擴招、改革、招生政策、錄取制度也進行了改革,加之物聯網、大數據時代的悄然到來,給招生工作帶來了新的機遇,同時也是我們面臨很多新的挑戰。如何在保證招生工作公平、公正、公開的基礎上引進新的工作思想和新技術,簡化招生工作流程,節省人力、物力和時間資源,是做好招生工作的要務之一。

1 高校招生數據的特點

隨著計算機網絡技術的飛速發展,高校的招生錄取工作基本上實現了基于網絡進行的狀態,這種招生報名和錄取的形式提高了招生工作的效率,降低了招生過程中的人力物力成本,但卻帶來了新的問題,即招生錄取過程中的數據處理問題,因為在報名系統中下載得到的數據會出現格式不統一等狀況,給后期的招生錄取、工作總結以及之后的與教務處的交接工作、學生管理工作都帶來了一系列的麻煩[1]。而招生數據的準確性又設計每一位考生的切身利益,不容有半點馬虎,一點細微的錯誤都可能導致一個家庭的悲劇,因此我們必須嚴肅認真地對待招生數據的處理?,F將這些數據的特點歸納總結如下:

1.1 普通類招生數據的特點

高校普通類招生數據的特點相對統一、整齊,涉及的信息主要包括以下幾種:(1)考生號,這也是標志每一位考生的主要關鍵字,由各省招辦按照統一的規律進行編排;(2)考生身份證號,鑒于身份證號的唯一性,其也可作為識別考生的主要關鍵字,但是由于考生來自全國各地,其身份證號不具有一定的規律性,因此我們一般不作為主關鍵字來處理,而是作為次要關鍵字,也就是說當數據產生沖突或錯誤等情況時,由其進一步驗證考生身份;(3)考生姓名,一般處理為字符串,處理的過程中需注意校驗每一個字符的正確性,否則會給學生入學后的教學管理和學籍管理工作帶來很大的麻煩,也會對考生自身產生一定的影響;(4)報考專業,這個屬性我們一般可以用專業代碼來代替,處理起來更加方便;(5)成績,一般情況下,普通類招生按文化成績排名錄取,藝術類中有些表演類的或者面試類的專業則按專業成績排名,所以考生成績是一個非常重要且難以處理的屬性,因此,我們在這里現將這些專業進行分類,按錄取原則將其歸類,并按類別分別建立表單,以表單名稱標志其錄取規則。除此之外,我們還要根據自己的需求建立成績的小項目屬性,因為當出現兩個考生的總成績一致而招生計劃數不夠的情況下,我們會根據錄取原則按某門科目的成績高地優先錄取,如語文成績等,也有一些專業會出現對某門科目的小分數線要求,如英語;(6)學生類別,學生類別主要分文、理兩種,在錄取的時候會按文理分開排隊和錄??;(7)其他屬性,如考試類別,包括城鎮應屆、城鎮往屆、農村應屆、農村往屆等;生源地,這涉及某些邊遠地區可能會有錄取的優惠政策等;是否服從調劑等信息。以上涉及的信息,在制作成為數據庫時有些我們可以組織編排成代碼的形式,另外在錄取中還要增加一項,即是否提檔,這以便我們后期做錄取結果數據的統計和分析。

1.2 藝術類招生數據的特點

藝術類招生數據相比普通類要復雜很多,涉及不同專業有不同的考試規則,錄取規則等等,還涉及初試成績、復試成績等,并且每個專業都有所差別,因此我們一般將其按專業劃分,做成單個小數據庫。各數據庫以專業來命名進行區分,內部仍以考生號作為主要關鍵字,但這里的考生號是我校自己按規則編排的,次要關鍵字為考生身份證號,除此之外涉及的主要屬性包括初試成績,是否進入復試,復試成績。

2 數據挖掘技術簡介

數據挖掘是目前人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程[2]。

數據挖掘是整合了人工智能、機器學習等多領域的知識,其主要過程是利用已有的數據庫進行數據訓練,使用某種算法,如決策樹、支持向量機等,構造出相應的數據模型,然后利用訓練好的模型進行數據分析和結果預測。

數據挖掘作為一門多專業交叉學科,是當今大數據時代下最前沿的技術,引起了國內外眾多領域研究人員的高度關注。在這方面,國外起步相對早一些,應用領域也相對廣泛,包括空間和天文學領域,其中比較有代表性的包括噴氣推進實驗室以及SKLCAT等。我國在這方面的研究主要集中在高校和相關科研單位,其資金來源和研究方向都以國家自然科學基金以及863計劃等。

到目前為止,數據挖掘技術在世界范圍內應用廣泛。毫不夸張地說,數據挖掘技術可以分析處理一切有規則的數據庫,比如在教育中涉及的考試成績分析,學生能力分析等等。其在社會中的應用領域也十分廣泛,包括市場、金融、醫學、教育等。

3 數據挖掘技術在高校招生數據管理中的應用

3.1 對普通類招生數據的處理

(1)代碼的轉換

對于有些屬性,可以用代碼的形式表示,更方便后期的數據匯總、分析等處理,如報考專業、學生類別等等,這就需要招生工作人員首先編排好代碼規則,然后作進一步的轉譯處理,將一些復雜的文字轉變成簡單的有意義的字符串,或將一些文字、字符串轉變成具有特定意義的數字代碼,在處理大量的數據時,我們可以借助excel的公式或者SQL語句進行處理[3]。

(2)信息合并

有時候我們所要的信息不是來自同一個數據表或者數據庫中的,因此需要首先對信息進行合并處理,才能得到我們想要的數據庫,一般合并的方法,我們也采用excel表或者SQL語句進行合并處理,處理的過程中應注意校對,以免將不同數據按同一條數據進行合并,導致錯誤的發生。

3.2 對藝術類招生數據的處理

由于藝術類招生由兩部分成績構成,所以除普通類招生數據的處理之外,還要對其進行綜合處理,由我們本校建立的數據庫和從招考報名網上下載導出的數據庫進行合并,此時考生身份證號是唯一的主要關鍵字,以身份證號進行連接,因為此時的考生號分別為我校自行編排的和各省招辦編排的,不具備一致性,因此,對數據庫進行合并之后要進行嚴格的校驗工作。

3.3 數據的分類總結

分類技術在很多領域都有應用,其主要過程可以分為兩個步驟:(1)訓練,包括訓練集—>特征選取—>訓練—>分類器;(2)分類:新樣本—>特征選取—>分類—>判決。首先我們將上述建立的數據庫增加錄取結果項,并按錄取結果進行分類,類別只有兩個,即是或者否[4]。然后使用決策樹歸納的算法自頂向下構造決策樹。利用決策樹,我們就可以預測某一條件的考生是否有很大可能被我校錄取。此外,我們還可以建立考生報考志愿決策樹,以此來判斷符合哪些條件的考生更容易報考我校,據此來調整招生宣傳策略。

4 小結

高校招生工作是高校發展的基礎,其具有相當的重要性、嚴肅性和規范化。招生過程中涉及最多的莫過于數據的處理和分析。高校招生數據是相對繁瑣和復雜的數據,對其進行規范的管理和分析對招生工作的順利進行有至關重要的作用,也能為后期的招生和報考工作提供依據。大數據和物聯網時代的到來,為高校招生數據的管理和分析開辟了新的道路,作為招生工作人員,我們應該緊跟時代的步伐,抓住大數據時代的契機,將新的技術和理念引入到招生數據處理中,甚至整個招生過程中,使其為招生工作服務。因此我們今后的工作重點將是在有效數據庫的基礎上建立相應的信息管理和處理系統,將整個的招生流程整合到一起,提高招生考試部門的整體管理水平和工作效率。

參考文獻:

[1] 李星華,關曉霞.高校招生數據處理探析[J].電腦知識與技術,2015,4(11).

[2] 谷鐵濤.基于數據挖掘的招生管理系統分析[J].山東社會科學,2014(s2):51-52.

[3] 朱麗麗.數據挖掘在高校招生中的應用研究[J].計算機與現代化,2012(8).

[4] 楊悅,郭大勇.數據挖掘在高校招生工作中的應用前景[J].教育科學,2007(10).

猜你喜歡
數據管理數據挖掘
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
列控數據管理平臺的開發
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
基于云計算的數據管理技術研究
數據挖掘的分析與探索
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合