?

基于模糊決策樹的成績評估模型

2018-02-09 07:18蔣玉宇陳宓宓
計算機與數字工程 2018年1期
關鍵詞:結點決策樹宿舍

劉 姣 王 兵 蔣玉宇 陳宓宓

(江蘇科技大學信息化建設與管理中心 鎮江 212003)

1 引言

現代高等教育從精英到大眾,從一元到多元,校園載容量急劇擴大,教學資源日益緊張,對校園風氣凈化、教育信息化建設和學校管理提出了新的挑戰,其中學生考核為教學工作的重要內容之一,單純依靠考試的傳統評價體系已無法真實、準確地反映學生能力水平。為此,需要建立更加科學的成績評價模型,為高校教學質量評估和教育信息化建設提供有效方法。

目前高校成績評價主要是從課程、作業成績,性別、年級等自身狀況和學習能力等方面分析預測大學生成績。何楚、宋健、傅亞莉等采用Aprior、遺傳神經網絡、C4.5等方法以課程和作業成績分數為基礎對成績進行預測建模[1~2],但是測試分數只是單純地反映了學生試卷的答題狀況,并不能完全反映學生的知識能力水平。鄒麗娜、丁茜、李曉莉等采用BP算法和分位數分析了性別、年紀、學習能力等對成績的影響[3~4],這些算法對性別、年紀、學習能力影響值的量化存在局限性。雖然這些算法可以在一定程度上反映和預測本學期的成績,但是成績評價仍然有待提高。

因此,本文構建以學生日常行為為載體的成績評估預測模型。在對成績模型屬性水平進行劃分時,清晰的邊界不能正確描述屬性水平,因此本文采用模糊理論[5]和決策樹[6~7]相結合的算法分析學生上課出勤率、考勤和借閱情況與學生成績之間的關聯關系,以達到預測的目的,為高校的教學工作提供重要的決策依據。

2 基于模糊決策樹成績模型構建

2.1 模糊決策樹基本原理

決策樹算法特點是在屬性值較少的情況下進行高質量、高效率的分類,現階段的大多數決策樹學習算法是一種核心算法的變體,即采用自頂向下的貪婪搜索遍歷可能的決策樹空[8],決策樹常見算法ID3、C4.5、C5.0等[9~11]。

高校學生正值青春年少,心智還不成熟,行為具有偶然性、突發性等特點,隸屬度劃分具有潛在的不確定性,采用傳統的決策樹算法生成的決策樹對于突變的數據具有不適應性,導致決策樹結構繁瑣,決策結果不精確。因此本文采用模糊理論和ID3相結合的算法對行為數據進行分析,得到學生成績評估模型。模糊決策樹核心原理主要有以下幾點:

1)指標模糊處理:分析屬性的選取是衡量決策模型的標志,屬性值的量化是構建模型的前提[12],通過設計模糊隸屬度函數將指標進行模糊處理。

2)建立模糊矩陣:模糊矩陣的建立是構建模糊決策樹的基礎。在指標進行模糊化的基礎上建立模糊判斷矩陣。

3)模糊決策樹的建立:在模糊矩陣的基礎上得到模糊信息熵,進而計算出模糊信息增益FGain。模糊決策樹是在ID3算法上進行了改進,將傳統決策樹上的信息熵和信息增益均進行模糊化處理,最后通過遞歸調用得出決策推理。

本文通過改進的模糊決策樹設計決策分析模型,模型框架如圖1所示。

2.2 數據模糊處理

本文通過問卷調查,專家經驗,數理統計和深度訪談等方式[13~14],從影響學生學業成績的眾多行為指標中選取上課出勤率,最早出宿舍時間,最晚出宿舍時間和圖書借閱量作為評估學生成績決策樹的節點屬性,選取學生期末成績為決策樹的結點屬性。設m為屬性水平的劃分,n為區分屬性水平的中心點。屬性 Aij(屬性i的第j個元素)在水平mk的模糊隸屬度矩陣為Ci,矩陣元素為,其中j=1,2,…,p,k=1,2,3,n1,n2分別為區分屬性水平的中心點。

圖1 決策分析模型框架

由于模型選取的分析屬性度量單位和取值排序存在差異,為了克服數值含義的不同本文設計分段和半三角形相結合的隸屬度函數,求解屬性元素分段水平的隸屬度:

當屬性取值 x<n2,隸屬度(0,0,1)。

由此可得模糊隸屬度矩陣Ci為 p*k階矩陣,其中∈[0,1]。具體表示方式如式(3)所示:

2.3 構建模糊決策樹

本文建立的學生成績評估模型,從根節點開始逐步對樣本節點屬性進行測試,并沿著相應的分支向下行走直至達到樣本結點,此時得到的結點屬性即為該樣本在節點屬性條件下的評估結果,結點屬性在水平mk的隸屬度值為所取樣本的隸屬度值之和,即:

由此可得成績結點在水平m上的熵如公式:

對屬性結點G和屬性節點Ai進行模糊分割,得到結點G在節點Ai模糊條件熵如公式:

最后得到節點Ai在結點G相應的信息增益如公式:

通過得出的信息增益值,選取FGain(Ai,G)最大的作為決策樹的根節點,然后對每一顆子樹進行遞歸調用,逐漸定位樹的分枝節點。最后得到成績預測模糊決策樹。

3 實例分析

隨機選取江科大50名學生數據如表1所示,通過數據清洗,篩選和轉換,選取學生一學期上課出勤率,最早出宿舍時間(日均),最晚回宿舍時間(日均),圖書借閱量(學期總合)為決策樹節點屬性,學生期末成績為決策樹結點屬性(注:如果未請假夜不歸宿者另做處理)。

3.1 實例建模

表1 學生行為數據表

通過同教務專家、后勤集團的調研選取模型屬性中心點的取值,如表2所示,其中n1,n2分別區分屬性水平的中間點,為屬性水平(時間在數值上越小越接近m1水平,在計算模糊隸屬度時取反)。

表2 屬性中心點和水平值選取

通過2.2小節設計的數據模糊化方法,得到學生成績(G)和各評估屬性(Ai)的模糊隸屬度矩陣,其中i=1,2,3,4:

通過信息熵和信息增益的計算方法得到各屬性的模糊信息增益:

通過上述計算,選取信息模糊增益最大的屬性(最早出宿舍時間)為模糊決策樹的根節點,由此可將樣本集分成3部分,然后再對樹的分枝按照上述方法進行遞歸運算,得出以50個樣本訓練集為基礎的模糊決策樹模型如圖2所示。

圖2 一卡通決策分析樹

其中決策樹中標識序號為基于行為的成績評估分類,共計13類,經計算序號為①、③、⑦和○11的枝干評估結果為無,由此可得該行為分枝出現的概率極小,對此進行模糊截枝處理,處理后行為分枝評估結果如表3所示。

3.2 模型驗證

隨機選取200個測試樣本集對所建模型9類分枝的正確性進行驗證,學生樣本采集標準參照表1,得到根據學生行為狀況預測成績結果的正確率如圖3所示。

由圖3可知,上課出勤率高且最晚回宿舍時間為中等的學生學業水平94%為優秀,上課出勤率為中等且最早出宿舍時間為早的學生學業水平84%是優秀。上課出勤率為中等、最早出宿舍時間為中等且最晚回宿舍時間為早的學生學業水平87%是一般,上課出勤率為中等、最早出宿舍時間為中等且最晚回宿舍時間為中等的學生學業水平90%是優秀等。即針對決策樹○13中的每一個分枝均能預測成績信息。

表3 屬性中心點和水平值選取

4 結語

以高校學生校園日常行為為基礎,采用模糊理論設計隸屬度函數,結合改進的決策樹算法深度挖掘學生日常行為與能力、水平之間的關聯關系,建立了模糊決策樹。實驗證明該決策樹能夠正確、高效、全面地對學生成績進行分析預測,為高校的信息化建設和教學管理決策工作提供重要的依據。

猜你喜歡
結點決策樹宿舍
LEACH 算法應用于礦井無線通信的路由算法研究
熱得快炸了
基于八數碼問題的搜索算法的研究
信息時代基于決策樹對大學生情緒的分類
簡述一種基于C4.5的隨機決策樹集成分類算法設計
學校到底是誰的
決策樹學習的剪枝方法
熱得快炸了
如何幫助大一新生建立良好的宿舍關系
決策樹在施工項目管理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合