彭玉蛟 王宏平 馬雪靜 蔣劍軍
摘要:大學生作為有知識有文化有理想的青年一代,參與公益事業并推動公益事業發展是不可回避的社會責任。如何更好地培養大學生的公益意識,為公益事業的發展培養更多的青年力量,也成為近年來公益事業思考的重要議題。文章通過調查問卷獲得大學生參與公益活動現狀的數據,引入機器學習方法量化分析大學生對公益認知和參與情況的影響因素。首先利用斯皮爾曼相關系數分析大學生參與公益活動積極性與其他因素之間的相關性;然后引入有序多分類logistic回歸模型挖掘大學生參與公益活動積極性的顯著影響因素;最后應用隨機森林和lightGBM模型對顯著影響因素進行重要性評估,得到顯著性影響因素的重要性排序。由量化分析結果得出結論:“公益廣告大賽-我是公益人”活動是大學生了解公益事業的最重要渠道,騰訊公司發起并資助的“樂捐、月捐、一起捐”是大學生最常參與的公益活動,參與公益活動最大的收益是獲得證書。
關鍵詞:大學生公益活動;影響因素分析;有序多分類logistic回歸模型;隨機森林;LightGBM模型
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)34-0119-04
開放科學(資源服務)標識碼(OSID)
0 引言
國家的全面發展激活了國民的公益意識[1]。大學生作為有知識有文化有理想的青年一代,了解并參與公益事業進而推動公益事業的發展是不可回避的社會責任[2-4]。關于大學生公益活動參與現狀研究是近年來的熱點,結出了豐碩的成果。比如,王趙基于對江蘇省10所高校的實證調查對大學生微公益活動參與的現狀、影響因素進行了研究,并提出來大學生參與公益事業的引導對策[5];高雪平、楊淑涵則基于浙江高校的調查提出了大學生互聯網公益參與度的提升路徑[6];張潤姣、陽慧玲對大學生公益的“互聯網+微公益”模式進行了調查研究,并提出對策鼓勵在校大學生更多地開展線上公益行為[7];馬越以西北政法大學為例對大學生網絡公益活動參與狀況進行了細致的思考[8]。在豐富的成果中,關于大學生參與公益活動影響因素的研究,特別是研究中引入量化方法,并不多見,而且大學生對于公益的認知與參與度有待進一步細致的了解,并進行實證分析。本文通過設計并發布《關于大學生公益認知及參與情況的調查問卷》獲得大學生對公益的認知及參與情況的第一手資料,再應用機器學習方法量化分析大學生參與公益的影響因素的顯著性,并評估顯著性因素的重要程度,分析結果對推動大學生公益事業發展有現實意義。
1 關于大學生公益認知及參與情況的調查
本文自主設計了《關于大學生公益認知及參與情況的調查問卷》,共有包括“性別”“年級”“學科”等共20個問題,其中單選問題9個,多選問題11個。調查問卷編制完成后發布在騰訊問卷平臺上,歷時15天收回有效問卷 378 份。調查問卷及采集到的數據已保存在百度網盤,鏈接:https://pan.baidu.com/s/1jOsw3 H8KZOvunFi1snhkLw?pwd=kj4x,提取碼:kj4x。
2 數據預處理
本文的目的是對大學生公益認知及參與情況的影響因素進行研究,所以本文以問卷中問題10“您參與公益活動的頻率”為響應變量,記為[Y],其他各問為影響因素。
調查問卷中所有題項對應的因素都是定性的,數據預處理的主要任務是對定性變量進行賦值。響應變量[Y]有五個取值:經常、一般、偶爾、幾乎不、沒有。在研究[Y]與其他因素的相關性時對[Y]進行獨立編碼;在研究[Y]與其他因素的因果關系時對[Y]賦值如下:
[Y=1, 當Y=“經?!?, 當Y=“一般”3, 當Y=“偶爾”4, 當Y=“幾乎不”5, 當Y=“沒有”]
影響因素中,單選題對應的變量按獨熱編碼賦值,對多選題對應的變量則按多熱編碼賦值。賦值完成后,影響因素從原來的18個變為116個(各問題下的各選項都成為了變量),記為[X1,X2,…,X116]。預處理后的數據已保存在百度網盤,鏈接:https://pan.baidu.com/s/1hvqUmtBzennykn4t15_aXQ?pwd=w9e3,提取碼:w9e3。
3 大學生公益活動認知及參與情況影響因素分析
本小節研究路線如圖1所示。
3.1 “大學生參與公益活動的頻率”與其他因素的相關性分析
本文引入斯皮爾曼相關系數研究影響因素的各選項對響應變量[Y]的各選項的相關性,挖掘參與公益的頻率分別為“經?!薄耙话恪薄芭紶枴薄皫缀醪弧薄皼]有”相關性強的因素。計算部分結果見表 2。
表 2羅列的是對響應變量[Y]的各選項“經?!薄耙话恪薄芭紶枴薄皫缀醪弧薄皼]有”正相關前三和負相關前三的因素。從相關系數看,有下述結論:
1) “[X32]=所在的學校有關于公益活動的社團嗎?_有,活動較多,經常宣傳鼓勵大家參與”與大學生“經?!眳⑴c公益活動是正相關的,也是影響大學生“幾乎不”參與公益活動的首要因素;而“[X31]=所在的學校有關于公益活動的社團嗎?_有,但活動較少”是影響大學生“經?!眳⑴c公益活動的首要因素。
2) “[X35]=是否參與過公益_參與過”既與“一般”也與“偶爾”正相關,還與大學生“沒有”參與過公益活動強負相關(相關系數為[-1]) 。
3) “[X36]=是否參與過公益_B.沒有”與大學生“沒有”參與公益活動強正相關(相關系數為[1]) ,也是影響大學生“一般”或“偶爾”參與公益活動的首要因素。
4) “[X74]=對什么類型最感興趣及原因:二級標題_聯通社交功能,偷取能量”是導致大學生“幾乎不”參與公益活動的首要因素。
上述結論都與常識相符。
3.2 “參與公益的頻率”與其他因素因果關系分析
3.2.1 有序多分類logistic回歸模型
有序多分類logistic回歸模型是典型的多元統計分析方法,廣泛應用于因變量為有序變量的因果推斷[9]。在大學生參與公益活動影響因素分析中,易知響應變量[Y]是有序變量,即其取值“經常、一般、偶爾、幾乎不、沒有”呈現出一種遞減的趨勢。所以,本文引入有序多分類logistic回歸模型來研究[Y]與[X1,X2,...,X116]的因果關系,挖掘對[Y]有顯著影響的因素。本文[Y]關于[X1,X2,...,X116]的有序多分類logistic回歸模型的表達式如下:
[lnp(Y≤j/X1,…,X116)1-p(Y≤j/X1,…,X116)=μj-β0+i=1116βiXi] (1)
[pY≤j/X1,…,X116=μj-β0+i=1116βiXi1+eμj-β0+i=1116βiXi] (2)
式[1]和式[2]中,[β0]為截距項,[βi]為模型的偏回歸系數,表示[Xi]對[Y]影響的方向和程度;[μj]為分界點。
3.2.2 SPSS實現
由SPSS輸出的參數估計結果顯示,在5%的顯著性水平下,有11個變量對因變量影響顯著,而其余105個變量對因變量的影響并不顯著。篩選出的顯著性變量如表 3所示。
其中11個顯著性變量的含義如表4所示。
從表3各變量的回歸系數看,正向影響因素有8個:[X25,X29,X32,X37,X45,X48,X49,X99],負向影響因素有3個:[X10,X83,X88]。
3.3 “參與公益活動頻率”顯著影響因素的重要性
表3列出了對“大學生參與公益活動的頻率”有顯著影響的因素。這些因素對[Y]的影響程度是不同的,因此需要對它們的影響力進行量化,并據此對它們按影響力排序。變量的影響力也稱為變量的重要性,本文引入兩種機器學習方法——隨機森林及LightGBM,來挖掘變量的重要性。
3.3.1 隨機森林
隨機森林是一種集成學習方法,因其預測精度高、數據兼容性強而應用廣泛。隨機森林既可用于回歸[10]也能用于分類,還能評估因素的重要性。隨機森林對變量重要性的評估是通過基尼系數的平均變化量或袋外誤差率的平均變化量來實現的。本文應用隨機森林以袋外誤差率的平均變化量來評估表3中11個顯著性變量的重要性,結果見表 5隨機森林所在列。
3.3.2 LightGBM模型
LightGBM(輕梯度提升機器)模型是一種基于GBDT的集成學習方法,廣泛應用于回歸[11]或分類。LightGBM使用回歸樹作為弱學習器,以每個預測結果與目標值的殘差作為下一個學習目標,每棵樹都學習所有先前樹的結論與殘差,將多棵決策樹的結果加在一起作為最終預測輸出,是一種高效率、高精度、高性能的分類算法。
由于LightGBM算法使用梯度提升決策樹作為基學習器,所以可記錄每個特征在樹節點中出現的次數,一個特征出現的次數越多說明對分類做出的貢獻越大,即特征的重要性定義為該特征在所有樹中作為劃分屬性的次數。本文應用lightGBM提取的顯著性變量的重要性見表 5中lightGBM列。
變量的重要性可視化如圖2(圖中lightGBM評估的重要性做了除以1000運算)。
從表4或圖2可以看出,兩種方法評估的變量的重要性基本一致,重要性的大小說明11個顯著性變量對大學生參與公益活動的影響力是有明顯差異的。
4 結論
通過對大學生認知和參與公益活動的影響因素分析,本文獲得如下結論。
4.1 基于影響因素的顯著性
應用有序多分類logistic回歸模型,從116個變量提取了11個顯著性變量。從這11個顯著性變量的回歸系數看,對大學生參與公益活動的頻率有正向影響的因素共8個,負向影響的因素共3個。
8 個正向影響因素為學校組織公益活動是建立激勵機制提供了方向,比如“您參與公益活動有哪些收益:獲得證書”([X99]) ,則在制定獎勵方案時,“證書”是必要的激勵項。
3 個負向影響因素分別是,“大一”([X10]) 、“志愿工作任務繁重,志愿時間長”([X83]) 、“H.其他”([X88]) ?!按笠弧必撓蛴绊懥舜髮W生對公益的參與程度,說明大一學生尚在逐步熟悉大學生活的過程中,對公益活動的認知尚未建立起來;“志愿工作任務繁重,志愿時間長”影響了大學生參與公益活動的熱情,符合常理;影響大學生參與公益活動的“H.其他”選項,則道出了大學生對公益事業真實而又難以言表的心情。
4.2 基于顯著性變量的重要性
從顯著性變量的重要性看來,對大學生參與公益活動影響前三的因素是[X25,X29,X99],都是正向影響因素,表明“公益廣告大賽-我是公益人”([X25]) 活動是大學生了解公益事業的最重要渠道,騰訊公司發起并資助的“樂捐、月捐、一起捐”([X29]) 是大學生最常參與的公益活動,參與公益活動最大的收益是獲得證書([X99]) 。
在負向影響因素中最重要的是“志愿工作任務繁重,志愿時間長”([X83]) ,這提醒學校志愿活動組織者,在組織志愿活動時在志愿任務和志愿時間上要有綜合考慮,否則可能會讓志愿活動效果適得其反。
參考文獻:
[1] 王宇深.高校共青團服務大學生微公益意識培育的路徑探索[J]. 智庫時代,2018(46): 94-95.
[2] 陳彥同, 秦崇勝.如何通過組織大學生公益活動引導大學生思想政治教育:論公益活動對大學生思想政治教育的如何有效開展[J]. 明日風尚,2018(6) : 222,251.
[3] 尹玉力.大學生公益活動的思想政治教育功能研究[D].太原:太原理工大學,2017.
[4] 賀雪嬌.大學生公益活動參與現狀研究[D].昆明:云南大學,2017.
[5] 王趙.大學生微公益活動參與的現狀、影響因素及引導對策:基于對江蘇省10所高校的實證調查[J].無錫商業職業技術學院學報,2022,22(1):82-88.
[6] 高雪平,楊淑涵. 大學生互聯網公益參與度提升路徑研究:基于浙江高校調查[J].湖北開放職業學院學報,2021,34(3):50-52.
[7] 張潤姣,陽慧玲.“互聯網+微公益”視域下在校大學生公益狀況調查[J]. 高教學刊,2019,116(20):187-189,193.
[8] 馬越.大學生網絡公益活動參與狀況考量:以西北政法大學為例[J].文化創新比較研究,2018,2(19):57-58.
[9] 石峰,胡燕.高校畢業生創業意愿的影響因素分析:基于有序多分類Logistic回歸模型[J].生產力研究,2021,343(2):131-135,161.
[10] 劉亞琴,劉瑞卿,顏中玉.基于粗糙集和隨機森林算法的數學師范生就業預測研究[J].湖南師范大學自然科學學報,2023,46(1):136-142.
[11] 歐陽群文. 基于LightGBM的水質預測模型研究與應用[J].智能城市,2022,8(11):84-87.
【通聯編輯:李雅琪】