?

單因素方差分析在大學生上網數據中的應用

2017-02-21 20:10弋改珍
科技創新與應用 2016年35期
關鍵詞:大數據

弋改珍

摘 要:大數據的意義是由人類日益普及的網絡行為所伴生的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據。以某普通高校大學生上網行為數據為數據源,研究了數據分析技術中單因素方差分析方法的原理和數據建模方法,借助SAS軟件中的數據庫和分析模塊,對數據源進行采集、整理、清洗,并建立評價指標,對預處理后的數據從用戶量方面進行分析。

關鍵詞:大數據;單因素方差分析;大學生上網行為數據

引言

隨著互聯網和信息技術的快速發展,物聯網、移動互聯、各種社交網絡從各個方面擴展了互聯網的應用領域。網絡對在校大學生的生活產生了深遠的影響,學生的行為方式、思維方式、價值觀念發生了巨大變化。如何及時了解學生的行為和思想動態,把握學生管理的時機,對教育管理部門提出了嚴峻的問題和考驗。

文章利用統計學中的單因素分析方法,在研究單因素分析方法的原理的基礎上,以某普通高校大學生上網行為數據為數據源,借助SAS軟件的數據庫和分析模塊,對數據源進行采集、整理、清洗,并逐步分析。根據分析結果,對大學生上網情況給出合理的建議,能夠使處于信息時代的大學生們正確、合理地運用網絡資源,充分把握信息的重要性。

1 單因素方差分析原理

單因素方差分析[1](one-wayANOVA)假設影響觀測值的多個因素中,只有一個因素在發生變化,其余因素不變時,變化的因素A有多個水平,在每個水平下進行ni次獨立觀測,得到試驗指標。

這里SE代表隨機誤差的影響,稱為誤差平方;SA是因素A的效應平方和,表示在Ai水平下樣本均值和總平均值之間的差異之和,反映了r個總體均值之間的差異,即μi之間的差異。

因此,總平方和ST可分解為由隨機誤差引起的誤差平方和SE和由因素各個水平的差異引起的因素平方和SA。

如果原假設H0成立,經過統計分析得到SE/(n-r)和SA/(r-1)是σ2的無偏估計,且SE和SA相互獨立,因此,有:

于是F可以作為H0的檢驗統計量,若F>Fα (r-1,n-r),則拒絕原假設。也可以使用P值決定是否接受原假設H0:p=P{F(r-1,n-r)>F}。若P<α,拒絕原假設H0;否則接受原假設H0。

2 數據預處理

數據來源于某普通高校的學生上網數據。原始數據是學生上網的日志文件,不符合SAS進行處理的數據格式。在進行數據分析之前,要對原始數據進行預處理和標準化,然后倒入SAS,利用SAS中的相關分析過程進行分析。

選取2016年4月11號-4月16號這一個星期的上網數據。數據的觀測是按時間進行排序的,其指標有日期,學號,網址等。

2.1 原始數據的處理

數據的合并及導入:原始數據是每小時的數據,要利用(copy *.log 合并文件.txt)進行每小時數據的合并,合并成為一天的數據。接下來在SAS中利用IMPORT過程[3]將一天的數據導入。

數據的整理:首先選取學生學號做指標,利用SQL過程查找有效學號信息過濾掉無效學號及缺省值,并留存篩選后的數據。然后以網址為指標進行篩選過濾掉無效網址及私有不可訪問網址。并基于保護用戶私密信息,經過數據清洗處理,保留下的數據集具有學號與網址兩個屬性值。

數據二次清洗:對于學號與網址數據中不完整的數據,錯誤的數據,重復的數據進行清洗。

2.2 基于學號網址的網址類別處理

通過從360網址大全,百度網址大全,2345網址導航等網站的源碼中提取網址關鍵字,并對網址關鍵字進行分類。

通過模糊匹配法對網址進行關鍵字的匹配,從工具、購物、軍事、科技、旅游、其它、社交、體育、新聞、學習、音樂、影像、游戲等13個方面對網址進行分類。

(1)排序按照類別排序,保證所有數據集的變量順序一致,以便分析。

(2)計算頻數對每個類別求訪問量及所占百分比。

(3)轉置,追加對所得表實現轉置并清洗其中無效信息以便追加數據集。對轉置后的表進行豎向追加。

(4)整理分析所用數據對一天的表求和并將七天的合并在一張表中。

2.3 指標的建立

根據單因素方差分析原理,選取一周中每天每一類網址作為樣本指標,分別用符號X0,X1,X2,X3,X4,X5,X6,X7來表示。其表示矩陣為Mij(i=1,2,…,n;j=1,2,…p)。如圖表1所示。

3 大學生上網行為數據的單因素方差分析

在ANOVA過程中,首先,假設時間對觀測值沒有顯著性影響,從圖1看出顯著性水平p=0.3210遠遠大于顯著性水平默認值α=0.05,所以不能拒絕原假設,表明均值之間的差異不顯著,時間對觀測值沒有顯著影響。其次,通過擬合統計量衡量假設模型的預期值和實現所得的實際值之間的差距。最后利用ANOVA模型判定我們的假設是可靠的。進一步由圖2可直觀簡單的看出在星期一的時候上網時間高于其它時間。

4 結束語

單因素方差分析方法中,雖然只有一個因素發生變化,但是這個因素具有多個水平,在實驗研究中按隨機化原則將受試對象隨機分配到因素的多個水平中,觀察各個組的試驗效應。通過使用單因素方差分析法對大學生上網行為數據的分析,時間對大學生上網沒有影響,學生每天上網量較大。在此我們提出建議,希望大學生能合理安排上網時間,正確對待網絡娛樂資源勞逸結合,寓教于樂是我們所提倡的健康的學習方式,適度娛樂能緩解學習,生活中的壓力也為后續的學習和工作提供能量。過度沉溺于如網絡娛樂,在線聊天等不僅浪費時間而且影響學習。我們必須合理的安排上網時間,做到有效的使用網絡資源并使其真正的為學習,生活帶來便利。

參考文獻

[1]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,2003.

[2]田兵.單因素方差分析的數學模型及其應用[J].陰山學刊,2013,27(2):24-27.

[3]謝龍漢,尚濤.SAS統計分析方法與數據挖掘[M].北京:電子工業出版社,2012.

猜你喜歡
大數據
基于在線教育的大數據研究
“互聯網+”農產品物流業的大數據策略研究
大數據時代新聞的新變化探究
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合