?

智慧館員視角下線性回歸分析課堂教學探索

2023-03-19 02:44
佳木斯職業學院學報 2023年12期
關鍵詞:電子表格回歸方程館員

胡 乙

(江蘇經貿職業技術學院,江蘇 南京 211168)

引言

針對智慧館員數據分析課程教學研究,目前國內外尚未有專門論述。羅格爾[1]從培養數據科學家角度,主張以python為工具,系統地介紹當今數據科學與數據分析中使用的通用算法及背后的數學思想。針對初學者,周紅[2]主張利用電子表格Excel強大的函數功能學習線性回歸、聚類、交叉驗證等數據挖掘方法。國內研究中,呂盛坪[3]、王海林、李君討論了現有數據分析與挖掘軟件的不足,提出重新開發個性化的學習平臺以適應數據分析教學需要。但目前多數數據分析軟件或者平臺對學生隱藏了數學模型的構建步驟,省略了幾乎所有公式的建立與推導過程,故學生難以理解數據挖掘與分析背后隱藏的數學原理。區別于流行的工具,Excel可以讓學生以一種完全透明的方式處理數據。對于初學者而言,Excel是物美價廉且功能強大的數據分析學習工具,值得學生實踐。據此,研究擬從數理統計理論與數據分析軟件實踐兩方面出發,引導學生理解回歸分析、回歸模型、回歸方程、估計的回歸方程、判定系數等相關概念。同時,以Excel為工具建立樣本數據庫,引導學生分步驟建立所有相關公式,使學生深入了解回歸分析的數學原理與軟件操作方法,為后續學習更高級的數據挖掘與分析課程打下理論與實踐基礎。

一、智慧圖書館、智慧館員與大數據分析

智慧圖書館的特征就是收集、形成大數據,并利用算法進行數據挖掘與分析,以提供智慧與知識服務。

(一)智慧圖書館與大數據分析

伴隨物聯網、云計算、大數據分析等信息技術的不斷進步,特別是阿爾法機器人在圍棋比賽中的出色表現,智慧圖書館與人工智能技術日益受到學界重視。智慧圖書館一詞,最早于2003年由芬蘭奧盧大學圖書館Aittola等人提出,智慧圖書館是不受空間限制的,可被感知的移動圖書館[4]。大數據是海量龐雜的數據,其特征包括數據大量化、類型多樣化、處理快速化、分析復雜化等。智慧圖書館的智慧來源就是大數據,圖書館的大數據分為生產大數據與分析大數據兩方面。此外,圖書館保留了科研與生產數據,且科研數據管理與服務也成為智慧圖書館服務的新熱點??蒲袛祿芾砗w了數據管理標準制定、元數據創建、語義注釋、數據關聯等活動。而科研數據服務一般包括創造和管理機構數據、提供數據挖掘與可視化工具等,要實現以上目標,開展智慧館員數據分析教學研究刻不容緩。

(二)智慧館員與數據科學課程

“沒有智慧館員,就沒有智慧圖書館”[5]。伊安·約翰遜深刻指出了智慧館員對于智慧圖書館建設的重要性。由于目前國內外尚缺乏統一定義,研究將智慧館員定義為在新興技術背景下,以滿足用戶個性化需求為目的,能提供數據管理服務、智慧智能服務的新型圖書館學情報學人才。其能在數據管理基礎上,為科研人員提供數據開發、數據搜集、數據分析等科學數據服務。據此,智慧館員型圖情專業學生應學習數據科學與分析課程,掌握數據分析概念、數據性質、數據分析過程。其中,回歸分析是解決變量間關系難題的最基本的數據分析方法,深刻理解回歸分析背后的數學原理與實踐過程,有助于學生學習數據分析與挖掘高級技術,成為更好地知識服務提供者與指導者。

(三)回歸分析的數學原理與相關概念

數據分析中最常見的是對兩個變量之間關系的分析。例如,管理人員可運用最高氣溫與圖書館自習人數的關系,根據未來最高氣溫的預報值,來估計對應圖書館的自習人數。傳統上人們經常依靠個人直覺與經驗判斷兩個變量的關系,但如果能取得樣本數據,則可以運用數據分析方法建立方程來描述變量之間相互關系,以上方法即為回歸分析。

1.回歸模型與回歸方程

在回歸分析中,被預測的變量y為因變量,而用來預測因變量的一個或者多個變量稱為自變量x。其中最簡單的回歸分析稱為簡單線性回歸,它只包括一個自變量與因變量,可以用一條直線近似描述二者關系。以氣溫與圖書館自習人數為例,因為圖書館有免費空調和免費書刊等學習資源,故通常氣溫越高,則圖書館自習人數越多。從回歸分析中可以建立氣溫影響自習人數的方程。區別于單一的樣本,從總體考慮,假設總體是由所有特定類型圖書館組成的集合,則對于總體中每一個圖書館都有一個氣溫值x與自習人數y,描述y依賴x與誤差項的方程稱為回歸模型,其中簡單線性回歸的回歸模型為y=β0+β1x+ε。模型表示:β0與β1為模型的參數,ε為誤差項,誤差項描述了包含在y中但不能被x與y之間線性關系解釋的變異性。圖書館總體也可以視為由若干圖書館子集組成的全集,每一個子集都對應一個y的分布,而y的每一個分布都有自己的平均值或者期望值。據此可引出回歸方程概念?;貧w方程是描述x如何影響y的期望值E(y)的方程,其中,簡單線性回歸方程為:E(y)=β0+β1x[6]。該方程的圖形是一條直線,β0是回歸直線的y軸截距,β1是斜率或者導數,

2.估計的回歸方程系數與最小二乘法

公式1

公式2

3.誤差平方和與判定系數

二、電子表格函數的運用與回歸分析實踐

在課堂教學中,Excel能以一種清晰的方式處理數據,在Excel中有三種方法可構建估計的回歸方程,即組合函數、數組函數、趨勢線。

(一)電子表格函數與最小二乘法的實踐

第二種計算系數的方法是利用電子表格內置的Linest函數,在M1中輸入b1,在N1中輸入b0,選中M2:N2,輸入“=LINEST(C2:C11;B2:B11,TRUE,TRUE)”,按住CTRL+SHIFT+ENTER后顯示b1、b0。該函數為數組函數,輸出個數為n+1,其中n是自變量個數。該函數先計算斜率,后計算常數。同時,該函數先輸入因變量數組,后輸入自變量數組,數組公式中出現大括號表示函數是數組函數。

(二)電子表格函數與判定系數的計算

以此類推,可計算SSE=308,SST=3812。在J12中輸入“=(H12-G12)/H12”,可得r2=0.919,可見,圖書館自習人數變異性的約92%能被估計的回歸方程所解釋,擬合程度較高。

大數據為智慧圖書館發展提供了難得的機遇,分析應用大數據是獲得智慧的關鍵。建設智慧圖書館,提供知識服務,首先要培養合格的智慧館員。智慧館員應掌握信息分析、數據挖掘、機器學習、網絡安全與維護等技術與知識。智慧館員在一定程度上可以說是一名優秀的數據科學工作者。當前隨著數據量急劇增加,從已知大數據中發現統計規律,進而利用這些規律來計算未來生產、工作中的估計值,已經成為智慧館員智慧服務的熱點之一。深入學習簡單線性回歸概念及應用、有助于為后續學習打下堅實基礎。

結語

在進行回歸分析時,對于簡單線性回歸方程,可利用最小二乘法分別求出方程參數β0、β1的估計值b0、b1,從而得到估計的回歸方程。

利用r2能測量估計的回歸方程的擬合度,但僅僅根據判定系數值,不能得出變量間關系在統計學上是否顯著的結論。這一結論必須建立在對最小二乘法估計量抽樣分布性質的研究上。在對假定模型的合理性進行檢驗前,仍然不能應用這個估計的回歸方程,要確定假定的模型是否合理,則要對變量間關系的顯著性進行檢驗。

未來課堂教學研究應引導學生對模型的誤差項ε作出概率假設,并對變量間關系的顯著性進行統計檢驗,同時運用Excel創新實踐教學研究。

猜你喜歡
電子表格回歸方程館員
采用直線回歸方程預測桑癭蚊防治適期
線性回歸方程的求解與應用
線性回歸方程要點導學
走進回歸分析,讓回歸方程不再是你高考的絆腳石
電子表格的自動化檢測
電子表格的自動化檢測
淺談電子表格技術在人事管理中的應用
青海省人民政府關于轉聘謝承華、斗尕館員為榮譽館員的決定
青海省人民政府關于轉聘謝佐等3位館員為榮譽館員的決定 青政〔2017〕32號
基于Excel電子表格的體育成績統計軟件設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合