基于自然語言處理的高校課程思政文本挖掘及可視化分析

2023-03-08 01:29馬占森苗馮博辛瑞昊

吉林化工學院學報 2023年10期

馮欣,王蘋,馬占森,苗馮博*,辛瑞昊

(1.吉林化工學院理學院,吉林吉林 13200;2.吉林化工學院信息與控制工程學院,吉林吉林 133200)

習近平在2016年的全國高校思想政治工作中明確提出:“其他各門課都要守好一段渠、種好責任田,使各類課程與思想政治理論課同向同行,形成協同效應”[1]。協同效應是要求高校在育人的同時,把思想政治教育與各類課程教學相融合,讓學生在實踐中接受思想政治教育[2]。課程思政的提出最早是2014年由上海教育委員會提出的,并在上海部分高校進行了試驗,取得了較好的試驗結果,習近平的講話為課程思政的進一步發展指明了方向。

我國高等院校是引導大學生樹立正確的道德觀、人生觀和價值觀的主要陣地,理應擔當起新時代的新使命[3]。立德樹人成效是檢驗高校工作的一切標準。近幾年來,課程思政逐漸走進大眾視野,也逐步走進了各大高校的教學中,高校課程思政也成為學者研究的熱點之一[4]。

隨著時代的發展,人工智能、大數據等新興技術的崛起,計算機的計算性能得到了大幅度的提高以及構建了各種大規模語料庫,自然語言處理技術作為人工智能的一個分支,取得了快速發展,并且被廣泛應用于多個領域,尤其是教育領域[5]。習近平在國際人工智能與教育大會致賀信中強調,要高度重視人工智能在教育領域的應用,積極推動人工智能和教育深度結合,促進教育變革創新,加快發展伴隨每個人一生的教育、平等面向每個人的教育、更加開放靈活的教育[6]。

基于自然語言處理技術的文本挖掘是人工智能在教育領域的成果應用之一。自然語言處理技術將數據挖掘、知識計量與聚類分析等方法結合,利用可視化分析直觀展示研究問題的核心內容、熱門方向和整體知識架構等信息[7]。與傳統文獻研究法相比,自然語言處理技術通過大數據分析和可視化技術在海量文獻數據中獲取重要信息,分析和展示該領域的研究進展和發展趨勢,極大地提高了研究效率[8]。

本文基于自然語言處理技術,對中國知網(CNKI)在2011—2021年期間所收錄的與高校課程思政相關的17 059篇文獻數據進行了詳細處理。通過運用知識圖譜,對已有的研究成果進行綜合總結和可視化分析,旨在深入洞察課程思政領域的研究熱點及未來發展趨勢,為研究課程思政的學者提供參考和數據支撐[9]。

一、數據收集

(一) 數據來源

本文用到的實驗數據來源于中國知網(CNKI)數據庫,采用中國知網的專業檢索,在搜索欄內輸入“SU=‘高?！?‘思政’*‘課程’OR SU=‘大學生’*‘思想政治’*‘教育’OR SU=‘思政課’*‘改革’OR SU=‘思想政治’*‘建設’”,檢索時間選擇2011—2021年,共檢索到18 576篇相關文獻。獲取到的數據信息包括序號、文獻名字、作者、期刊名稱、發表時間、引用次數、下載次數、第一作者所在地、關鍵詞、頁數和摘要。剔除掉沒有關鍵詞的數據,剩下17 059條文獻數據進行分析和統計[10]。

(二) 數據獲取

本文分析了近十年中國知網中關于課程思政研究熱點相關問題,由于數據量龐大,為了快速獲得準確并且詳細的文獻信息,采用了網絡爬蟲算法按照制定的規則爬取所需要的文獻數據信息。網絡爬蟲的原名稱是web crawler,意思是在網頁上爬行搜索資料,所以網絡爬蟲也叫網絡蜘蛛。它可以自動瀏覽網頁中的信息,幫助人們自動在網頁中進行數據采集、下載和整理。隨著大數據時代的到來,互聯網中的數據也越來越多,如果只靠人們手工去進行數據收集和下載,則會大大降低收集數據的效率,所以近幾年來網絡爬蟲的地位越來越重要[11]。目前網絡爬蟲最常用的工具是python,python中有網絡爬蟲最實用的三個框架,分別是BeautifulSoup、Selenium及Scrapy。三個框架都有各自的特色和優點,根據本文所需要的數據,采用了“BeatifulSoup+Selenium”方法進行了網絡爬蟲,該方法主要分為四個步驟,分別是抓取網頁、解析網頁信息、提取網頁信息數據和數據儲存。網絡爬蟲的具體流程如圖1所示。在網絡爬蟲過程中,遵循了網站的robots協議,保證了網絡爬蟲的合法性[12]。

圖1 網絡爬蟲具體流程

二、實驗原理

文本挖掘也叫文本數據挖掘,類似于文字分析,即文本處理中生成高質量信息。自然語言處理(NLP)可以進行文本挖掘,也是目前海量數據展現的一種常見的方法[13]。由于文獻數據有一定的復雜性與全面性,需要基于人工智能實線文獻數據文本挖掘,才可以充分了解課程思政的發展情況,并預測未來研究的熱點。本文基于自然語言處理技術,采用TF-IDF算法提取文獻摘要中的主題詞,然后利用jieba分詞技術對文獻數據信息進行切分,最后采用K-means聚類算法進行分析,為學者提供相關數據進行參考,便于針對性解決課程思政的一系列問題?；谧匀徽Z言處理技術的課程思政文獻數據挖掘流程如圖2所示。

圖2 文獻數據挖掘流程圖

(一) 基于TF-IDF算法提取摘要主題詞

文獻摘要是對整篇文章進行總結概括,簡明扼要地說明文章研究目的、研究方法和研究結論。本小節采用TF-IDF算法進行文本挖掘,提取文獻摘要的主題詞。其中TF是詞頻表示一個給定的詞語t在這篇給定的文檔d中出現的頻率,TF越高,表示詞語t對文檔d來說越重要,TF值低則相反。IDF是逆向文檔頻率,包含詞語t的文檔越少,則IDF越大,說明詞語t對于文檔區分具有很好的能力。TF-IDF算法進行文本挖掘流程如圖3所示。

圖3 TF-IDF算法流程圖

(二) 基于jieba分詞技術切割文獻信息

為了提升結果的準確度,實現對課程思政相關文獻精準分析,本小節將利用jieba分詞技術結合TF-IDF算法對文獻信息進行切割,進一步擴充文獻主題詞。Jieba分詞技術是一個針對文本挖掘的分詞精度高、速度快的中文分詞模塊。Jieba分詞在語料庫的輔助下,通過規則與統計相結合的方法,利用前綴詞典實現文本掃描,生成不同的可能出現的詞組組合,通過尋找最大概率的組合找出詞頻最高的切分組合。Jieba分詞切割文獻信息流程如圖4所示。

圖4 jieba分詞流程圖

(三) 基于K-means聚類提取文本主題詞

文本聚類是文本挖掘最關鍵的一步,文本聚類是把相似的對象分成不同組別或者不同的子集,讓同一個組別或者子集的成員對象有著相同的屬性。K-means聚類算法是比較常用的聚類算法,它把n個點劃分到k個聚類中,使每個點都屬于離他最近的均值即聚類中心對應的聚類,來作為聚類的標準。K-means聚類算法提取文本主題詞流程圖如圖5所示。

圖5 K-means聚類算法流程圖

三、結果分析

(一) 課程思政研究主題分類明確

通過自然語言處理的TF-IDF算法、jieba分詞和K-means聚類得到了關于課程思政的3 789個主題詞。根據各主題詞出現的次數進行排序,選取了出現次數最多的50個主題詞進行統計分析,計算各主題詞的平均TF-IDF值和標注各主題詞的研究類型,分別將主題詞標注為研究對象O、研究內容T和研究方法M。標注主題詞時剔除了7個有相同意義或研究類型模糊的主題詞,剩余43個主題詞進行統計分析。主題詞分析結果見表1。

表1 主題詞分析結果

從表中可以看出課程思政、高校、大學生、思政課等等主題詞,不僅出現次數多,而且平均TF-IDF值也是比較高的,說明這些主題詞是學者研究課程思政的熱點方向。

(二) 課程思政研究內容側重不同

本文利用自然語言處理中的K-means聚類算法對研究內容主題詞進行分析,將主題詞分為三個主要類別并得到了以研究內容為聚類中心的3個簇,聚類中心分別為課程(477)、思想(222)、大學生(36)。三個主題的文獻數量近十年的變化趨勢如圖6所示,圖中橫縱標代表年份,縱坐標代表該主題詞在文獻中出現的次數。

圖6 文獻主題詞年度分布圖

從課程思政研究內容來看,課程思政研究的主題詞可以劃分為三個主要類別:課程、思想和大學生。在過去十年中,這三個主題詞的研究文獻數量呈現持續增長的趨勢。特別是在2020年至2021年期間,這三個主題的文獻發表數量有顯著增加。課程思政研究文獻的數量在2014年迅速提升,這可能與上海市教育委員會在該年正式推出課程思政試驗有關。這一試驗在上海一些高校中開展并取得良好的成效,這使得課程思政成為研究的熱點,促使相關文獻產出量快速增加。這表明課程思政已經成為教育界的一個熱門研究領域,并且有望在未來繼續發展和探索。

(三) 課程思政研究對象分類合理

本小節對文獻主題詞的研究對象進行分析總結,總結結果如圖7所示。

圖7 研究對象詞頻統計

圖7中橫坐標文獻主題詞,縱坐標代表每個主題詞在文獻中出現的次數。根據對文獻研究對象進行分析可知,大學生是課程思政的主要研究對象,反映了我國對青年大學生思想政治教育的重視程度。課程思政正在逐漸滲透到各大高校,在傳授專業課程的同時,也向大學生傳授思想政治教育。課程思政已成為大學教育中不可或缺的組成部分。

(四) 課程思政研究機構逐步擴大

對文獻數據的核心機構進行整理和總結,發表文獻數量排名前30的機構見表2。

表2 發表文獻核心機構

通過對文獻數據核心機構的整理和總結可知,本科高校是課程思政研究的主要機構,擁有豐富的研究經驗和優勢條件。相比之下,?？坪图夹g院校在課程思政研究方面的貢獻相對較低,需要加強對課程思政教育研究與教學的關注和支持。

(五) 課程思政研究熱點循序漸進

研究熱點是一段時間內該研究領域的焦點,學者共同探討的話題。分析研究熱點的方法有很多,目前比較常用的有科學計量方法Citespace軟件、共詞分析方法、聚類分析和多尺度分析。傳統的聚類分析,是使用關鍵詞進行聚類,再根據聚類結果分析研究熱點領域,這樣分析的研究熱點是以標簽為代表的聚類端點,缺少研究內容和研究對象的相關分析。本文將對研究內容(T)和研究對象(O)進行相關分析,熱力圖如圖8所示,從圖中可以看出,課程思政主要圍繞高校大學生開展,研究熱點內容是思想政治教育。課程思政是中國高校獨有的教育理念,是新時代思想政治教育發展的前進方向。跟傳統的思想政治教育相比,課程思政全方位對高校大學生進行教育,讓思想政治教育與專業課程同向同行。

圖8 研究對象(O)和研究內容(T)熱力圖

四、結束語

本文借助自然語言處理技術和數據可視化,對課程思政研究領域的文獻進行總結和可視化分析,以課程思政2011—2021年17 059篇文獻數據作為樣本,從發表時間、核心機構、主要研究對象和高頻主題詞進行統計分析,探究課程思政的研究熱點和發展趨勢。通過對課程思政的定量分析,可以得知從2014年提出課程思政這一概念,就受到了學術界的高度關注。我國課程思政主要針對的研究對象是大學生,課程思政的研究也已經從理論探討逐漸轉向專業課程教學實踐,表明課程思政和各類專業課教學正在協同發展。從研究機構分析來看,課程思政的研究機構主要集中在本科高校,未來需要加強高職院校課程思政的研究與教學。綜上所述,課程思政作為一項重要的教育理念和實踐,受到了廣泛的關注,并在大學生思想政治教育和專業課程教學中發揮著積極的作用。未來的研究需要更多地關注高職院校的課程思政實踐,推動思政教育全面發展。