?

基于HANA的高校教務大數據多維度分析

2016-12-27 19:10張紅
中國教育技術裝備 2016年19期
關鍵詞:大數據

張紅

10.3969/j.issn.1671-489X.2016.19.027

摘 要 基于HANA平臺,對東華大學近10年的教務數據進行多維分析,對學生信息表和學生成績表分別創建分析視圖和計算視圖,挖掘學生成績、生源地、專業、星座之間的關系,并對其關系進行圖形展示,為高校學生的管理和研究提供信息支持。

關鍵詞 HANA;教務數據;大數據

中圖分類號:G642 文獻標識碼:B

文章編號:1671-489X(2016)19-0027-02

1 引言

近年來隨著“大數據”技術的發展,數據的價值逐漸被大家認識并發掘,行業內出現了各種關于大數據的應用,本文的立足點是高校教務數據。高校教務數據包括學生的基本信息、學生的選課信息及學習成績信息等,這些信息比較全面地反映了學生的整體情況,而且彼此之間存在緊密聯系,同時也隱含了一些重要信息。通過對該數據的挖掘分析,可以把一些重要的信息從數據庫中抽取出來,為人們提供具有價值的信息,更好地支持人們的決策,同時為學生管理人員提供有力的信息支持和工作指導。本文以東華大學近10年的教務數據為樣本進行研究分析,挖掘學生成績、生源地、專業和星座之間的系。

2 相關技術

內存計算 數據庫奠基人Jim Gray曾于2006年預言:“磁帶已經死了,磁盤已經落伍,閃存成為新存儲,內存局部性才是王道?!彪S著硬件成本的不斷降低,如今這一預言已經成為現實[1]。內存計算在軟硬件系統協同配置的環境下,高效地將數據庫以及數據倉庫全部放在內存中進行計算,這樣有效地減少了磁盤的I/O。內存計算采用高效的并行計算技術以及基于內存的數據的讀取、處理以及壓縮技術,同時支持數據的行式存儲以及列式存儲。在內存計算方法中擁有系統內容的計算引擎,使用內存計算法運行大量的數據系統是用虛擬數據建模,計算引擎直接采用虛擬數據進行有效計算,這樣的計算方式直接在內存中進行,減少了因為大量的數據的存在造成的數據冗余,優化了數據層與應用之間的數據交互,極大地提升了系統的運行效率。內存計算的計算方式讓數據的計算速度飛快地增長,也讓海量的數據快速計算成為可能。

HANA數據庫 HANA是一種數據庫管理系統[2],其研發者是SAP公司。HANA數據庫不同于一般的數據庫,它是一種集軟件與硬件為一體的工作平臺,是列式存儲與內存計算技術上的結合體。HANA數據庫的運行方式相較于傳統的數據庫的運行方式,極大地提高了數據的壓縮效率以及存儲的性能,減少了可能造成的數據冗余。HANA數據庫的使用者可以自由使用內置的分析工具對各種模型進行分析,如建立數據倉庫、報表等,能夠對平臺上的大量數據及時處理并實時獲得分析結果,完成對大量數據的分析。

HANA[3]的內存數據庫是內存計算中最主要的組成部分,主要包括的內容有數據庫服務器、客戶端工具、建模工具。在HANA數據中,計算引擎是核心,主要負責對大量數據的CRUDQ操作,操作形式支持MDX、SQL語句[4-5]等。HANA數據庫不一般的計算能力以及強大可擴展性,讓原來需要很長時間很大工程的運算成為可能,并且其計算引擎也不對其他的用戶操作造成影響,這很大程度上提高了企業的工作效率,促進了勞動生產力的提高。

3 數據處理過程

數據加載 從東華大學得到的教務數據是csv文件格式的,包括學生基本信息、選課信息、選課情況信息、成績信息等。該格式的文件是一種比較輕量級的用半角逗號作分割值的數據文件,無法創建索引,每次查詢都需要遍歷文件,很難適應復雜多變的查詢需求。因此,首先將數據從csv文件導入到HANA數據庫,HANA數據庫可以幫助系統完成大規模的數據查詢與提取。

安裝HANA客戶端工具和建模工具后,需要將數據加載到HANA實例中,以便開始執行示例應用程序。數據加載可能非常復雜,SAP為不同的數據加載業務情景提供了多個解決方案。打開HANA建模工具,單擊“文件”(File)菜單并選擇“導入”項(Import)即可實現數據的導入。

數據建模 在HANA數據庫中,用于對各種數據建模的模型稱為信息視圖(Information views)。這類視圖通過對內容數據(屬性數據、度量數據)的各種組合來建立業務實例的模型。數據倉庫中一般常用的數據類型有兩種:一種是屬性數據(attribute),通常是一些描述性的數據,如學生學號、班級、生源地等;一種是度量數據(measure),通常是數字型的數據,如學生家庭收入、學生成績等。這兩種數據類型都可以稱為內容數據。

信息視圖的一般用途是分析性的用例,如患者地域分布表、多維度分析的檢驗報告等場景。HANA提供的信息視圖有三種,分別是屬性視圖(attribute view)、分析視圖(analytic view)、計算視圖(calculation view)。其中,屬性視圖是基于不同數據庫的源表中具有一定關系的屬性數據而建立起來的實體模型;分析視圖主要用于建立包含度量數據的模型;計算視圖可以簡單地實現和屬性視圖、分析視圖同樣的功能,也可以針對數據庫中定義進行更高級的計算,用來滿足業務應用上的一些復雜邏輯。

本文對課程信息表創建了分析視圖,設置輸出列為課程編號和課程名稱,并在語義層定義維度和度量,通過查詢課程名相同、課程代碼不同的課程,可以看出排名前10位的課程主要是每個學院都開設的實習類課程。

對學生信息表創建了計算視圖,利用學生出生日期建立計算列,從而獲得每個學生的星座。選擇“星座”這個維度,度量選擇按照“學號”計算,通過分析可以看出,學生人數排名前5位的星座分別是天秤座、天蝎座、獅子座、處女座和水瓶座。

對學生成績表創建了計算視圖,利用成績建立計算列,選擇“生源地”這個維度,度量選擇按照“平均成績”計算,通過分析可以看出,學生人數排名前5位的生源地分別是浙江、河北、河南、福建和山東;選擇“星座”這個維度,度量選擇按照“平均成績”計算,通過分析可以看出,成績排名前5位的星座是天秤座、天蝎座、獅子座、處女座和水瓶座,如圖1所示。

4 實驗

實驗環境 本實驗所用服務器的配置為戴爾Power Edge R910,CPU為4顆Xeon核E7520,內存為256 G,操作系統為SUSE Linux Enterprise Server 11 SP1,內存計算數據庫引擎采用HANA SERVER 1.006。實驗數據采用東華大學近10年的教務數據。

結果與分析 對學生成績表創建了計算視圖,利用成績建立計算列,選擇“生源地”這個維度,度量選擇安裝“平均成績”計算,對查詢結果進行了篩選,查看成績相對較差的學生的生源地分布數據,排名后5位的是北京、河南、廣東、陜西、云南。

對學生成績表創建計算視圖,利用成績建立計算列,選擇“星座”這個維度,度量選擇按照“平均成績”計算,查看優秀學生的星座分布數據,排名前5位的是天秤座、天蝎座、獅子座、處女座、水瓶座。

5 結束語

本文基于HANA平臺,對東華大學近10年的教務數據進行了多維分析,對學生信息表和學生成績表分別創建了分析視圖和計算視圖,分析了學生成績、生源地、專業、星座之間的關系,并對其關系進行了圖形展示,為人們提供具有價值的信息,更好地支持人們的決策,同時也為學生管理人員提供了有力的信息支持和工作指導?;谠摂祿?,還可以利用關聯規則進一步挖掘各維度之間更深一層的關系?!?/p>

參考文獻

[1]朱靖翔,張濱,樂嘉錦.基于內存計算的鋼鐵價格預測算法研究[J].計算機科學,2014,41(b11):432-435.

[2]李抵非,田地,胡雄偉.基于分布式內存計算的深度學習方法[J].吉林大學學報:工學版,2015,45(3):921-925.

[3]付云.大數據時代內存計算先行[J].互聯網周刊,

2012(2):64-65.

猜你喜歡
大數據
基于在線教育的大數據研究
“互聯網+”農產品物流業的大數據策略研究
大數據時代新聞的新變化探究
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合