?

高校公共衛生數據挖掘分析

2024-04-14 02:12趙靜劉楊紀曉韻
現代信息科技 2024年2期
關鍵詞:聚類分析

趙靜 劉楊 紀曉韻

DOI:10.19850/j.cnki.2096-4706.2024.02.011

收稿日期:2023-04-18

基金項目:2022年上海電子信息職業技術學院課題(B22243)

摘? 要:由于高校公共衛生安全任務艱巨,提出構建一種高校公共衛生功能體系。通過Weka平臺挖掘統計分析高校公共衛生功能體系中產生的高校公共衛生數據,運用關聯規則算法分析出強關聯規則產生的離返校重要影響因素從而幫助高校重點關注人群。統計挖掘因病請假的學生數據,幫助高校規范公共安全衛生管理并提供數據依據。運用聚類K均值算法分析得出需要重點關注的簇類學生,有指向性地提供公共衛生安全心理疏導,驗證通過高校公共衛生數據挖掘分析能達到大數據精準治理公共衛生安全效果,推動高校公共衛生治理模式創新。

關鍵詞:高校公共衛生功能體系;Weka;聚類分析

中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2024)02-0045-05

Analysis of Public Health Data Mining in Colleges and Universities

ZHAO Jing1, LIU Yang2, JI Xiaoyun1

(1. Information Centre of Shanghai Technical Institute of Electronics & Information, Shanghai? 201411, China;

2.Library of Shanghai Technical Institute of Electronics & Information, Shanghai? 201411, China)

Abstract: Due to the arduous task of public health and safety in colleges and universities, it is proposed to construct a functional system of public health in colleges and universities. It mines, counts and analyzes the public health data in colleges and universities generated in the public health functional system in colleges and universities through the Weka platform, and it uses association rule algorithms to analyze the important influencing factors of leaving and returning to school generated by strong association rules so as to help colleges and universities to focus on the crowd. It counts and mines the data on students who take a leave of absence due to illness, and helps colleges and universities standardize public safety and health management and provide data basis. It uses the clustering K-means algorithm to analyze and conclude the cluster students who need to be focused on, provides targeted psychological counseling for public health and safety, and verifies that the effect of big data precise governance for public health and safety could be achieved by public health data mining and analysis in colleges and universities, which promotes innovation of public health governance mode in colleges and universities.

Keywords: functional system of public health in colleges and universities; Weka; cluster analysis

0? 引? 言

2003年“非典”的突然爆發,各高校公共衛生應對非常疲憊;2019年的“新冠病毒感染”疫情的爆發,高校的公共衛生安全任務也非常艱巨、繁重,各高校也相應落實落細各項防控措施,但也暴露出缺少公共衛生大數據精準統計挖掘分析和重點人群排查等公共衛生問題。針對高校公共衛生安全治理方面存在的不足,目前研究者提出了較多改進策略,例如,李鴻濤[1]等提出的高校公共安全治理與大數據應用研究;閔穎[2]提出的高校公共安全宣傳教育問題研究——以江蘇建筑職業技術學院為例;王星[3]等提出的高校公共安全問題及對策分析。針對上述問題,本文構建了適合高校的公共衛生功能體系,進一步挖掘出學生離返校重要影響因素和比較突出的簇類學生,提出對重點人群的重視策略,以提高高校公共衛生安全工作效率和管理水平,節約人力成本,對加強高校的公共衛生安全建設提供參考。

1? 高校公共衛生功能體系構建

高校公共衛生功能體系構建圍繞學生返校前、到校時、返校后和離校時四個關鍵時間節點構建學生離返校系統、每日健康信息統計等兩個功能點,匯聚大體量數據,面向全日制高職生、五年一貫制、高本貫通學生、中高職貫通學生等用戶。每日健康統計提供學生的快速每日核查、健康數據采集、極速上報監測,杜絕謊報瞞報。綜合分析每日學生健康統計,幫助高校完成分批次的安全返校安排。高校疫情防控功能體系中的離返校系統成功實施了學生離返校全過程零接觸方案,學生提交離返校請假申請,并查看審批結果。

2? 多種算法在公共衛生數據中的應用

2.1? Apriori算法在公共衛生數據中的應用

Apriori算法是關聯規則挖掘的基礎算法,目的是在大規模的數據中尋找相應關系。關聯規則算法使用置信度和支持度。

置信度是在X出現的情況下,Y出現的概率,也稱為條件概率。例如,離校請假不離滬的情況下,離校目的地都是學校附近的概率。置信度(Confidence)數學式可表達為:

(1)

支持度表示一個項集在數據集中的比例,也是支持的程度,即{X,Y}一起出現的概率。比如,{離校不離滬,允許離校}一起出現的概率。Support支持度數學式表示為:

(2)

文章采用關聯規則算法其中一種Apriori算法,將在Weka實驗下使用Apriori算法[4]挖掘分析數據,找出高校公共衛生離返校數據影響因素之間的強關聯規則。

2.2? 聚類算法在公共衛生數據中的應用

聚類是將抽象或物理對象的集合分成由類似的對象組成的多個類的過程。聚類分析的任務是把高校公共衛生功能體系離返校實例分配到n個對象或者元組的簇,構建k個劃分聚類的方法,并將同一個簇的實例聚集在一個簇中心的周圍。不同簇實例之間的距離比較遠,同一個簇之間距離比較近。

在應用中,對高校公共衛生功能體系中數據“back to school.numeric”和“leaving school.numeric”做聚類分析,使用K均值算法[5]。每個簇都是使用對象的平均值來表示。

3? 關聯規則及聚類分析過程及結果

通過高校公共衛生功能體系中離返校申請流程的數據挖掘,探索、發現離返校重要影響因素的強關聯性,對高校公共衛生工作提供有效依據。文章以某高校在校學生作為研究目標和預測素材。

3.1? 數據預處理

3.1.1? 數據清理

研究主要選擇2021年11月某高校的公共衛生功能體系中離校請假和返校申請數據作為關聯規則算法和聚類分析算法的數據源。為了形成算法模型,合并構成兩個數據集合,分別是離校請假申請和返校申請數據集合。因為數據的冗余、缺失等問題,高校公共衛生功能體系中導出的離返校數據要經過數據預清理、集成、變換及離散化等一系列數據預處理,最終得到有效離校數據5 309條,有效返校數據1 009條。鑒于以上提出的數據冗余和缺失問題,進行如下處理:

1)數據集合去掉冗余字段。返校數據取是否返校、返校頻率、近兩周是否有發熱、干咳、乏力等癥狀、年級、性別、近兩周是否有接觸境外歸國人員、近兩周是否接觸有呼吸道感染或發熱癥狀人員、是否有正常核酸檢測報告、近兩周是否有境外旅居史、是否有正常健康碼和行程碼、是否有承諾書等屬性。其余流水號、流程名稱、發起人工號/學號、發起人姓名、學院、狀態、流程發起時間、流程最后更新時間、家庭住址、省、市、縣(區)、具體地址、緊急聯系人、緊急聯系人電話、到校日期、出發地、其他需要說明的內容、個人行程、交通工具、行程開始時間、行程結束時間等字段去掉。離校數據取離校請假頻率、是否離滬、年級、離校原因、性別、預測離校時間、離校目的地、預測返校時間等屬性。其余流水號、流程名稱、學號、姓名、學院、狀態、流程發起時間、流程最后更新時間、離校附件上傳、行程時間、個人承諾等字段去掉。

2)將屬性均值填充在缺失值上來解決數據缺失問題。

3.1.2? 數據集成和變換

對學生的離返校數據集合中的各屬性及屬性值都進行集成和變換處理。對返校申請流程數據集合中所有屬性依次按順序集成編號{A,B,C,…,L};按照流程時間先后的順序,所有數據依次集成編號{2,3,…}。對離校請假數據集合中所有屬性依次按順序集成編號{A,B,C,…,H};按照流程時間先后的順序,所有數據依次集成編號{2,3,…}。

3.1.3? 數據離散化

Apriori算法的關聯規則分析和聚類分析[6]使用的數據類型有具體的要求,所以離返校數據集成完成后還需將離校申請頻率和返校申請頻率進行數據轉換,將numeric類型轉換成nominal[7]類型,即離散化數據。離校抽取的數據離散等級分為三個等級,分別為高頻率離校、中頻率離校、低頻率離校。返校抽取的數據離散等級分為三個等級,分別為高頻率返校、中頻率返校、低頻率返校。聚類數據預處理需將離校申請頻率和返校申請頻率的數據處理成numeric類型[8]的文件。

3.2? 數據關聯規則分析過程及結果

文章將高校公共衛生數據預處理后導入Weka平臺中,隨后選擇Associate選項卡中的Apriori算法。通過上面置信度數學式(1)和支持度數學式(2)得出的最小支持度下界為0.4,最小置信度0.9的參數情況下,生病離校分析結果如圖1所示,返校分析結果如圖2所示。

圖1中大數據分析挖掘出離校原因是因病請假,強關聯規則是不離滬的情況下允許離校,做好這些學生因病請假和病因挖掘追蹤,學生健康狀況達到高校公共安全衛生管理要求時方能返校。

從圖2關聯結果可知,允許返校,近兩周沒有發熱、干咳、乏力等癥狀,近兩周沒有接觸有發熱或呼吸道感染癥狀人員,近兩周沒有境外旅居史,近兩周沒有接觸境外歸國人員,有承諾書,有健康碼和行程碼都是關聯性最強。對于挖掘出的有近兩周有發熱、干咳、乏力等癥狀、近兩周有接觸有發熱或呼吸道感染癥狀人員、近兩周有境外旅居史、近兩周有接觸境外歸國人員等任何一個重要影響因素的學生,高校需要加強關注這些重點人群以及應急處置,學生健康狀況達到高校公共衛生要求時再返校。對于有近兩周有發熱、干咳、乏力等癥狀的學生及其病因和進展進行追蹤關注。

3.3? 高校公共衛生數據聚類分析過程及結果

在Weka平臺中,先將高校公共衛生預處理后的數據導入其中,隨后選擇相應選項卡下的SimplekMeans算法。先將高校公共衛生數據中2021年11月學生返校行為1 009條學生實例數據聚類成七簇。處理返校數據聚類運算時,先設置好返校數據參數numClusters為7,seed為63進行聚類運算,就是其中的“seed”參數為一個隨機種子,主要是為了算出第一次SimplekMeans算法中給出的K個簇中心位置。研究得到近兩周有發熱返校聚類圖,如圖3所示。再將高校公共衛生數據中學生離校行為5 309條學生實例數據聚類成7簇。處理離校數據聚類運算時,先設置好離校數據參數numClusters為7,seed為200,研究得到離校高頻率聚類圖和離校頻率非常高實習學生離校聚類圖,如圖4和圖5所示。

圖3中可以直觀地看到第6簇中有學生近兩周有發熱的情況,了解學生具體病情。如果是傳染病,及時向高校公共衛生相關部門匯報,并做好此簇學生的健康檔案和追蹤檔案記錄。

圖4為第5簇中的學生,這簇學生特征是每月離校頻率超過15次。高頻率離校一定要引起高校各部門和老師的高度警覺,通過進一步和學生的有效溝通,要詳細了解學生高頻率離校的原因,原因可能是身體問題、心理問題、環境問題、實習問題,等等。針對不同情況,也要提供給學生相應解決策略。若是身體問題,區分是否是傳染病。如果是傳染病,需要向高校公共衛生部門及時反饋,并做好此簇學生的健康檔案和追蹤檔案記錄。若是環境問題,比如住宿公共衛生、食堂公共衛生等環境問題引起心理問題,不同的公共衛生環境問題需要針對性地解決問題,并對此類學生有指向性的心理疏導,保障學生安心學習。若是實習問題,提醒學生在實習單位也要注意做好傳染病的防范措施。

圖5為第4簇中的學生,學生的情況是當天回來去實習,但是離校頻率非常高的學生。諸如此簇的學生要引起學校重點關注,要時常關注和追蹤這簇學生的健康安全情況。

4? 大數據分析結果推動精準治理

采用Weka統計挖掘分析方法,開展高校公共衛生功能體系中各個節點的多維度、多層次分析,立體展現公共衛生功能體系特質。

一是從影響離返校行為的重要影響因素入手,優化高校公共衛生功能體系。

二是利用關聯規則方法,對學生是否離滬、學生離滬的目的地、離校原因、預測離校時間及返校時間和是否離校進行關聯規則分析,對近兩周是否有發熱、干咳、乏力等癥狀、近兩周是否接觸有發熱或呼吸道感染癥狀人員、近兩周是否有境外旅居史、近兩周是否有接觸境外歸國人員、是否有承諾書、是否有健康碼和行程碼、是否有核酸檢測報告、核酸檢測報告結果、是否返校進行關聯規則分析。由強關聯規則產生的離返校重要影響因素可以幫助高校重點關注人群以及應急處置演練。

三是對離返校數據進行聚類分析,充分展現不同簇的學生的不同表現行為。輔導員對于時常意向參加實習、反復申請離返校的學生、近期有身體不適的學生要予以重視,可以通過當面或者“云訪問”關心關注學生,掌握學生突出行為表現的原因,并有針對性地進行心理疏導,達到大數據分析結果推動精準治理公共衛生安全效果。

5? 結? 論

通過創新性構建“高校公共衛生功能體系”,實

時、精準了解學生身體狀況、返校過程、在校情況、離校請假等數據,全面排查公共衛生安全風險并及時預警和關注重點人群,有力保障學生公共衛生安全。高校公共衛生功能體系還促進了高校公共衛生數據“高價值”轉化,提升高校、教師和學生風險應對能力,強化大數據在高校公共衛生各環節應用,推動公共衛生治理方式變革,強化大數據在教育教學、學生生活管理等領域應用,推動高校公共衛生治理模式創新。

參考文獻:

[1] 李鴻濤,許嘉悅,陳懷波.高校公共安全治理與大數據應用研究 [J].南京理工大學學報:社會科學版,2021,34(3):87-90.

[2] 閔穎.高校公共安全宣傳教育問題研究——以江蘇建筑職業技術學院為例 [J].內蒙古煤炭經濟,2021(2):141-142.

[3] 王星,吳群紅,郝艷華,等.高校公共安全問題及對策分析 [J].中國農村衛生事業管理,2020,40(5):359-363.

[4] 肖易,袁艷,阮芳,等.新形勢下公共衛生人員工作滿意度調查分析 [J].湖北科技學院學報,2023,43(1):150-156.

[5] 高建杰,繆芷羽.公共衛生事件影響下旅游小群體交通管控策略研究 [J].時代汽車,2023(4):196-198.

[6] 劉安長.突發公共衛生事件下支持地方公共衛生體系改革的財政政策研究——以湖南省為例 [J].河北青年管理干部學院學報,2023,35(1):44-49

[7] 張淑琪,趙振華.突發公共衛生事件影響下高校學生突發事件的類型及預防策略研究 [J].科學咨詢:教育科研,2022(12):16-18.

[8] 周波,代鵬,李麗萍.從公共衛生安全角度重新審視高校智慧校園設計 [J].現代建筑電氣,2023,14(1):37-41+65.

作者簡介:趙靜(1984—),女,漢族,上海人,工程師,碩士研究生,研究方向:管理科學與工程等。

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個地級市溫度聚類分析
我國中部地區農村居民消費行為階段特征分析
基于聚類分析的無須人工干預的中文碎紙片自動拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應用
新媒體用戶行為模式分析
農村居民家庭人均生活消費支出分析
基于省會城市經濟發展程度的實證分析
基于聚類分析的互聯網廣告投放研究
“縣級供電企業生產經營統計一套”表輔助決策模式研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合