?

機器學習理論在高中自主學習中的應用

2016-06-02 18:04陳筱語
科教導刊·電子版 2016年10期
關鍵詞:統計機器學習數據挖掘

陳筱語

摘 要 伴隨互聯網發展,以云計算和大數據為代表的信息技術,已經開始滲透至各個領域。以深度學習為代表的機器學習技術,在諸多行業逐步開始發揮革命性作用。而在教育領域,大部分學校依然遵循傳統的教育模式,教學參與者如學校、教師、學生和家長普遍感到異常辛苦。本文就利用基于互聯網和大數據的最新機器學習技術,實現自主學習,進而提高高中階段教學效率的可能性和應用過程進行探討。

關鍵詞 機器學習 統計 數據挖掘 互聯網

中圖分類號:TP181 文獻標識碼:A

1機器學習技術介紹

根據南京大學教授周志華的《機器學習和數據挖掘》對機器學習的定義,“機器學習”是人工智能的核心研究領域之一,其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智能。目前被廣泛采用的機器學習的定義是“利用經驗來改善計算機系統自身的性能”。事實上,由于“經驗”在計算機系統中主要是以數據的形式存在的,因此機器學習設法要對數據進行分析,從海量的數據中,利用各種機器學習算法,提煉具有洞察價值的信息。

2機器學習核心技術簡介

機器學習是人工智能研究發展到一定階段的必然產物。R.S.Michalski等人把機器學習研究劃分成“從例子中學習”、“在問題求解和規劃中學習”、“通過觀察和發現學習”、“從指令中學習”等范疇。20世紀80年代以來,研究次數最多、應用最廣的是“從例子中學習”(即廣義的歸納學習),它涵蓋了監督學習(如分類、回歸)、非監督學習(例如聚類)等眾多內容。歸納學習另一個重要分支是神經網絡和支持向量機,自從80年代BP“反向傳播算法”的發明以來,神經網絡得到了極大的發展,現在已經形成“深度學習”這一獨立的領域,在圖像識別和音頻識別方面發揮著重要的作用。以下是主要機器學習核心技術的介紹:

2.1分類算法

分類算法屬于監督式學習算法,其原理是通過研究歷史數據,提取數據特征指標,依據歷史數據結果,形成分類規則集合,通過信息熵最大算法,不斷對這些規則進行篩選,最終形成對數據進行有效分類的規則集合,以對將來數據進行預測。分類算法包括決策樹、隨機森林等。

2.2聚類算法

聚類算法屬于非監督式學習算法,與分類算法等監督式學習不同,聚類算法不包含數據標簽,而是對原始數據特征運用距離算法,以推斷出數據標簽。常見的聚類算法包括k-Means、分層聚類等。

2.3關聯算法

關聯算法是從一個數據集中發現數據項直接關聯規則的算法,關聯算法的代表是基于頻繁項集的Apriori算法。如果存在一條關聯規則,它的支持度和置信度都大于預先定義好的最小支持度與置信度,我們就稱它為強關聯規則。強關聯規則就可以用來了解項之間的隱藏關系。所以關聯分析的主要目的就是尋找強關聯規則,而Apriori算法則主要用來幫助尋找強關聯規則。

2.4回歸算法

回歸算法基于統計學的線性回歸和邏輯回歸分析技術,線性回歸是通過“最小二乘法”,對觀測數據進行擬合,以對未來數據進行預測;邏輯回歸與線性回歸算法非常類似,但使用的是離散的數據分類特征,使用sigmoid函數,將線性回歸的計算結果轉化為0或1的概率,然后根據這個概率進行預測。

2.5支持向量機

支持向量機(SVM)屬于基于核的算法,是90年代中期發展起來的基于統計學習理論的一種機器學習方法,通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。

2.6神經網絡

人工神經網絡算法模擬生物神經網絡,是一類模式匹配算法。通常用于解決分類和回歸問題。人工神經網絡是機器學習的一個龐大的分支,有幾百種不同的算法,重要的人工神經網絡算法包括:感知器神經網絡(Perceptron Neural Network),反向傳遞(Back Propagation),學習矢量量化(Learning Vector Quantization,LVQ)等。

以上是對機器學習核心技術和算法的簡要介紹,實際上機器學習領域發展很快,各種算法層出不窮。據統計,現有的機器學習算法已經超過1000種。我們這里主要介紹一些應用比較廣泛的機器學習技術,為后續在高中階段學生自主學習中應用做鋪墊。

3基于機器學習的自主學習

高中階段學生要實現自主學習,除了前文提到的機器學習技術已經成熟之外,還有兩個先決條件也已經具備。一是隨處可得的數據收集和處理技術;另一個是基于互聯網的豐富的教學資源和多樣的教學手段,包括課件、題庫、多媒體課堂等。

3.1大數據技術

大數據技術是隨著互聯網發展起來的最新數據處理技術,它處理的規模和吞吐量是之前的計算機系統的幾百上千倍,因而,隨地收集各種數據成為可能。

大數據技術主要包括四個方面:

3.1.1海量數據收集

大數據收集技術能夠實時地收集各種格式的海量數據,不僅包括原有各種格式化數據,還包括傳統計算機無法收集的數據,如設備運行日志、視頻和音頻數據。

3.1.2數據處理和存儲

大數據技術支持PB直至ZB級數據的處理和存儲,有人統計過,現在Google一天處理的數據量,已經超過20年前全世界1年產生的數據量。

3.1.3數據挖掘和分析

大數據技術利用大規模計算機集群的超級計算能力,使原有的性能低下的數據挖掘和機器學習算法高速運行,從而使實時數據挖掘和分析成為可能。

3.1.4數據展現

大數據技術利用計算機圖形學和認知心理學的最新研究成果,利用豐富的數據展示圖表,支持各種圖形界面的數據展示,提高了信息送達和知識傳播的效率。

3.2互聯網教學資源

互聯網及其相關的數據搜索和數據服務技術,使傳統的線下以書本中心的教學資源體系,轉變為以互聯網為中心的教學資源體系。以互聯網為中心的教學資源體系,無論是容量、檢索速度還是展現方式,都是傳統的書本教學資源無法比擬的。

目前,在互聯網上可以檢索到高中階段各科目的各種教學電子教材、教學課件、作業試題、考試試卷等,而且很多教學資源能夠以具體、生動的方式來傳播知識。因而降低了教學資源的獲取門檻,拓寬了教學資源的獲取途徑,客觀上非常有利于高中階段學生進行自主學習。

4基于機器學習技術的自主學習過程

雖然有了互聯網、大數據和機器學習等技術,但要實現高中階段學生自主學習,即在提高學生學習興趣的同時,提高應試水平,還需要采取很多切實措施。

具體措施包括以下幾個部分:

4.1過程數據收集

要實現自主學習,必須對學生學習的行為過程和學習的結果數據進行全面收集,學習相關數據包括以下內容:

(1)學生基本信息:包括年齡、性別、地域、家庭條件等;

(2)學習過程數據:包括遲到、曠課、上課提問次數、聽課積極度評價、作業完成時間、作業完成次數、作業未交次數、考試完成時間等;

(3)學習結果數據:包括作業、測驗、考試的試題數據、分數數據、試題相關的章節、知識點等;

(4)學習相關其他數據:包括教師基本信息、教師對學生評價、高考數據等。

4.2行為和模式分析

心智模式是學生的思想方法、思維習慣、思維風格和心理素質的綜合反映,是學生各項思維能力的“總和”,用以感受、觀察、理解、判斷、選擇、記憶、想象、假設、推理,而后指導其學習行為?,F代教育心理學認為,高中階段學生已經形成一定的心智模式,且心智模式對學生的學習行為有很大的影響,進而對學習的成果起決定作用。

目前可以通過學生外在表征行為數據,對學生的心智模式進行建模。高中階段學生的心智模式主要由三個維度構成:

(1)智力結構:包括觀察力、注意力、記憶力、實踐力;

(2)思維能力:思維的廣度和深度、思維的邏輯性、思維的獨立性;

(3)動力結構:主要是學習動機的強弱,包括學習興趣、學習態度、學習目標和學習適應能力。

根據學生的心智模型,可以通過機器學習技術,對學生心智模式進行集群分析,定位學生心智模式,然后分析學生歷史學習數據,確定有效的、針對不同學生心智模式的個性化學習方案。

4.3個性化路徑定制

在確定每個學生心智模式的基礎上,結合過往的優秀學習案例數據,為學生制定個性化的自主學習路徑。自主學習是按照新課標的進度要求,為不同學生確定基本的學習路線圖,而且根據反饋,及時調整自主學習路徑,動態地適應學生的實際狀況。

自主學習路徑本質上是一個時間軸上的各個學習目標的動態關聯??傮w目標由階段性目標質變而成,(例如,總體學習目標可以是高考一本線,那么在高中三年中,每個學年每個學期都要有月度目標,月度目標之下還應有周目標)最終形成一個基于每個學生心智模式的高效學習路徑。

4.4預測與推薦

機器學習技術利用系統積累的大量學生的學習案例數據,實現對學生學習趨勢的預測,并根據實際學習產出,調整預測模型。在預測模型的基礎上,可以利用各種推薦算法,在適當的時間點向每個學生推薦最佳的學習資源。即根據自主學習路徑,參照正常的課程進度,提供微課、作業、測驗等適合每個學生的學習資源,確保階段性目標的達成。

4.5監控與干預

機器學習系統收集學生的學習數據,按照自主學習路徑,監控每個學生的學習異常,及時向學生、老師和家長提出預警,以便對學生學習進行幫助,確保學習路徑與各階段目標不偏離。

由于高中階段學生還處于青春叛逆期,很容易出現抗拒學習的行為,因此在學習干預的觸發設計上,必須保證有一定的余量,必須注意不能引起學生的逆反心理。

參考文獻

[1] 周志華.機器學習與數據挖掘[J].中國計算機學會通訊,2007(9).

[2] T.M.Mitchell.Machine Learning.New York:McGraw-Hill,1997.

[3] R.S.Michalski,J.G.Carbonell,T.M.Mitchell,eds.Machine Learning:An Artificial IntelligenceApproach,Palo Alto,CA:Tioga Publishing Co.,1983.

猜你喜歡
統計機器學習數據挖掘
基于并行計算的大數據挖掘在電網中的應用
前綴字母為特征在維吾爾語文本情感分類中的研究
2008—2015我國健美操科研論文的統計與分析
基于支持向量機的金融數據分析研究
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合