?

《環境科學》課程思政知識庫自動構建方法研究

2024-01-08 10:45郭勝娟彭東來
武漢工程職業技術學院學報 2023年4期
關鍵詞:環境科學爬蟲知識庫

郭勝娟 楊 梅 彭東來

(1.武漢城市職業學院 湖北 武漢:430064;2.武漢大學 湖北 武漢:430072)

課程思政是指在專業課程的教學過程中將課堂知識與思想政治有機地融合,通過課程教學來培養學生的思想政治覺悟、理論素養和道德品質,將黨的理論、政策和核心價值觀融入到課程教學中,以達到“育人”與“育才”的目的。自2016年12月習近平總書記在全國高校思想政治工作會議上明確指出:“把思想政治工作貫穿教育教學全過程”,課程思政的理論研究和實際應用廣泛開展,課程思政的教學模式也與專業課程進行緊密結合[1]?!董h境科學》是一門綜合性的學科,主要研究與環境有關的各種問題,包括環境污染、環境保護、生態學、資源管理、環境經濟學、環境法律等方面的知識[2-3]。該課程的研究內容與生活實踐是密不可分的,與習總書記倡導的“綠水青山就是金山銀山”的發展理念一脈相承。因此,如何快速建立課程知識體系與新聞時政的聯系,如何構建適合課堂教學的環境科學課程思政知識庫,成為學科教師亟待解決的關鍵問題。

知識庫作為一種特殊的知識結構,得到了全世界專家學者的廣泛關注。已構建的具有代表性的知識庫有WordNet、KnowItAll、Freebase、DBpedia、 WikiTaxonomy、YAGO、ReadTheWeb。東南大學開發的zhishi.me開放知識圖譜首次嘗試構建中文通用知識圖譜[4]。在生態環境知識庫方面,有的學者也會針對特定的知識構建領域本體知識庫??娚俸繹5]從地理課本中獲取相關領域知識,提取本體及本體的屬性,并以此構建了基于本體的知識庫。宋立博[6]通過圖數據庫Neo4j 構建標準圖譜庫,實現生態環境標準知識圖譜。郭勝娟等人[7]研究了知識圖譜的知識獲取、整合與可視化的方法。但是,目前并沒有環境科學課程思政知識庫構建的報道。因此,本文根據《環境科學》的知識點,采用爬蟲技術、Neo4j圖數據庫、自然語言處理、ChatGPT等計算機技術,在人民網等國家主流媒體獲取時政要聞的基本信息,形成時政要聞的知識素材,并對知識素材進行非結構化存儲,形成課程思政素材庫。

1 知識點自動提取

1.1 知識點提取流程

為了自動生成知識庫,本文以《環境科學》教材的“水污染及其防治”一章為主要分析對象。該章的學習目標是“認識水污染物的危害,掌握污水的物理、化學、生物治理方法的原理以及污水處理流程組合的原則”。為了實現該章節的學習目標,構建課程思政知識庫,首先采用Jieba工具對教材的相關章節進行分詞,采用TF-IDF算法統計該節內容的高頻詞匯,形成高頻短語作為關鍵詞?;谠撽P鍵詞,應用大語言模型工具Chat GPT分析教材內容,形成所選擇內容的教學知識點。具體知識點提取流程如圖1所示。

圖1 知識點提取流程圖

1.2 關鍵詞自動提取

關鍵詞是文本內容中具有特殊重要性和標志性的詞語,它對于理解文本的主題、內容和重要性起著重要的作用。關鍵詞在文本中的出現具有頻繁性和代表性,通常在文本中頻繁出現多次。根據該特征,可以采用詞頻分析方法統計出不同詞匯出現的次數,并據此分析《環境科學》教材中主要關鍵詞。

Jieba是一種常用的中文文本分詞工具,它能夠將連續的漢字文本切分成有意義的詞語,識別連續文本中的不同詞性,有助于文本處理、自然語言處理和信息檢索等應用。因此,可以采用Jieba對教材內容進行分詞,實現教學內容的名詞提取。例如水污染處理技術的分詞格式如下:“污水/處理/技術/就是/采用/各種/方法/將/污水/中/所含/有/的/污染物質/分離/出來/,或/將/其/轉化/為/無害/和/穩定/的/物質,從而/使/污水/得以/凈化/?!?/p>

TF-IDF是一種常用的關鍵詞提取和文本分析的統計學方法,其基本原理是統計每個詞在文檔中出現的頻率(TF)和表示詞語在文檔中的重要程度的逆文檔頻率(IDF),然后將詞頻(TF)與逆文檔頻率(IDF)相乘,得到TF-IDF得分。TF-IDF方法能夠幫助環境科學教學中的教師快速理解文本的重要內容,并識別出與課程內容相關的關鍵詞。例如,在“水污染及其防治”一章中,我們提取到高頻關鍵詞為“[水體:0.568, 污染:0.243,水中:0.186,污染物:0.162,水質:0.154,有機物:0.138,…]”

1.3 知識點自動生成

知識點在環境科學教學中具有至關重要的角色,它有助于我們更好地理解環境問題的本質,能指導我們制定環境科學課程思政素材自動獲取方法。因此,如何根據教學內容自動生成知識點,成為環境科學課程思政庫知識庫構建的關鍵問題之一。

本文以ChatGPT為輔助工具,基于關鍵詞自動構建ChatGPT的提示詞,并根據預先設計的知識點模板,由ChatGPT自動根據課程內容生成知識點。例如,根據上述獲取的高頻關鍵詞“水體:0.568,污染:0.243”,構建“請根據以下教學內容構建教學知識點,重點內容是‘水體’”。ChatGPT生成如圖2的知識點。

圖2 水體知識體系的自動生成

2 課程思政素材獲取方法

2.1 思政素材自動獲取流程

網絡爬蟲是一種程序或腳本,用于自動地從互聯網上收集大量數據。它通過遍歷網頁并提取有用的信息,然后將這些信息存儲在數據庫或文件中,以供進一步分析和利用。在現代信息時代,網絡爬蟲已經成為了數據挖掘和信息獲取的重要手段,出現了Scrapy、Beautiful Soup、cheeio、puppeteer等網絡爬蟲工具。

本文采用cheeio和puppeteer工具實現網絡爬蟲,其獲取數據的過程如圖3所示。首先需要確定爬取的網站和需要收集數據的關鍵詞,弄清網站的頁面結構和數據組織方式,確定如何從頁面中提取需要的數據,獲取到數據后,將提取的數據存儲到本地或數據庫中,便于后續處理和分析。

圖3 素材爬取示意圖

2.2 思政素材爬取的實現

根據上文獲取到的關鍵字,從習近平系列重要講話數據庫、中華人民共和國生態環境部和人民網這三個網站,檢索“水體”“污染”等關鍵字進行初步篩選,發送HTTP請求到給定的URL,并從返回的網頁內容中提取特定數據,如標題、時間、來源和內容等 ,然后將這些數據插入到數據庫中,其核心代碼如圖4。

圖4 網絡爬蟲核心代碼

3 知識表示與存儲方法

3.1 結構化數據存儲

為了獲取知識庫,需要對網頁爬取的文章進行存儲,對于這種規整性的文章而言,可以選擇關系型數據庫 MySQL 進行存儲。該系統主要的結構化數據主要包括環境思政文章和用戶實體。文章實體的主要屬性包括ID、路徑URL、文章內容、文章標題、發表時間和文章來源。用戶實體的主要屬性包括用戶ID、用戶名、用戶密碼和用戶許可。文章和用戶實體通過“訪問”關系構成關聯關系,用戶可以訪問多篇文章,文章可以被多個用戶訪問。因此可以構建如圖5所示的實體關系圖。

圖5 主要實體關系圖

其中,環境思政文章的表設計與字段表述如表1所示,其中kg_id 字段為文章的 id,用于區分不同的文章。

3.2 非結構化知識表示

對于爬取的課程思政數據,提取出有關實體、關系和屬性的結構化信息。本文采用Jieba分詞提取和TF-IDF詞頻分析技術提取關鍵詞,提取課程思政的關鍵詞,并通過ChatGPT形成關鍵詞的摘要。例如,通過爬蟲獲取人民網中含有“K1:水體”和“K2:污染”的關鍵詞的網頁“非法傾倒工業廢水致水體污染”,采用ChatGPT提取出關鍵字“I1:導致工業污染”和關鍵句子“S1:(佛山污染事件),在廣東省佛山市禪城區,謝某和劉某因非法排放危險廢物導致環境污染,被判處有期徒刑六個月、罰款1萬元,需支付35.2萬元的生態環境損害費和修復費,同時在媒體刊登聲明向社會公眾賠禮道歉?!?/p>

表1 環境思政文章表關鍵字段設計與描述

采用RDF表示課程思政知識體系[8]。RDF三元組是一種用于表示和描述語義信息的基本數據模型。它由三個部分組成,分別是主題(Subject)、謂詞(Predicate)和賓語(Object),構成了一個簡單的陳述句,用于描述資源之間的關系。通過RDF三元組可以實現非結構化信息的存儲,從而構建知識庫。例如,在上述結構化數據中,可以構建(K1,I1,S1)和(K2,I1,S1)兩個RDF三元組。

3.3 非結構化知識存儲與知識庫構建

對于非結構化RDF數據,采用圖數據庫Neo4j進行存儲。Neo4j是一個高性能、可擴展的非關系型數據庫,它以節點(Nodes)和關系(Relationships)為基礎來表示數據,適合表示和處理復雜的非關系型數據,可以通過使用 Cypher 查詢語言進行高效的圖查詢和分析,幫助用戶發現圖數據的模式。

例如上述案例中,可以通過Cypher查詢語言來創建和查詢圖形數據如圖6所示。

圖6 Cypher語言插入Neo4j關系圖構建語法

將RDF數據格式導入到Neo4j數據庫后,“MATCH (k:Keyword {name: '污染'})-[:CAUSES]->(i:Impact)-[:LEADS_TO]->(e:Event) RETURN k, i, e”語句查詢所有節點。

4 應用與分析

本文采用主題探究教學設計策略,將自動生成的知識圖譜應用于教學中。主題探究教學策略首先講解水污染的危害,構建水污染相關知識主題。例如,本文以“環境污染的主要事件”這個主題,引導學生通過查詢思政知識庫,查找“佛山污染事件”等課程思政的主要知識點,接著提示學生調研該事件的起因、經過和最終處罰。進一步,通過與知識圖譜的交互操作,逐步展開在全球范圍內水體污染導致的重大事件,學生共同討論該主題的現實意義,分析這些事件背后的原因,構建學生對水污染防護的重要現實意義。

通過以上教學策略,本文隨機選擇某學院科學教育專業2個普通班作為研究對象,其中對照班38人和實驗班40人。為了比較教學效果,實驗從學生課堂參與度、學生滿意程度、學生成績和課程思政能力四個方面進行評測。課堂教學參與度是任課教師根據學生在課堂上的參與程度,包括提問、回答問題、參與討論的頻率等給出的綜合評分。學生滿意程度是通過如圖7的問卷調查獲取學生的反饋。學生成績是通過課堂小測試完成,以百分制計算總得分。課程思政能力是通過問卷調查的方式完成,轉化為百分制計分。 如表2所示,實驗班成績在學生課程參與度、學生滿意度和課程成績方面均優于對照班。

圖7 課程滿意度調查問卷

表2 教學效果對比

5 總結

本文通過采用人工智能的分析方法,結合《環境科學》的教學內容,自動生成教學知識點,并通過ChatGPT、網絡爬蟲等工具,自動從人民網等國內主流媒體獲取課程思政知識庫,并將這些知識以知識圖譜的方式整合進入課堂教學。通過對比實驗分析表明,該方法可以有效提高學生的課程參與度和提高學習成績,同時也可以有效提高課程思政的效果,讓學生通過隱式學習到對“社會環境事件”的關注。

猜你喜歡
環境科學爬蟲知識庫
利用網絡爬蟲技術驗證房地產灰犀牛之說
基于Python的網絡爬蟲和反爬蟲技術研究
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
利用爬蟲技術的Geo-Gnutel la VANET流量采集
大數據環境下基于python的網絡爬蟲技術
國內外高校環境科學專業實踐教學體系的差異比較
環境科學專業綜合設計實驗教學改革研究
環境科學專業本科生科研創新能力培養方法與長效機制
高速公路信息系統維護知識庫的建立和應用
基于Drupal發布學者知識庫關聯數據的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合