大語言模型在中學歷史學科中的應用測評分析

2024-03-12 04:07申麗萍何朝帆曹東旭朱云彬吳永和

現代教育技術 2024年2期

申麗萍何朝帆曹東旭朱云彬吳永和

摘要：大語言模型一經發布便獲得廣泛關注，但其在實際應用特別是教育領域的應用還存在諸多局限與挑戰，因此需要對大語言模型在中文語境下的能力與風險進行測評?；诖?，文章首先收集整理了一個包括10萬條客觀選擇題與10套中學主觀題測試卷的中學歷史數據集，并在以ChatGPT、GPT-4和訊飛星火為代表的大語言模型上測試了該數據集中題目的回答表現。然后，文章詳細分析了測試結果，發現雖然當前大語言模型的突出能力在于能夠產生完整且流暢的表達，但其在中學歷史知識測試中仍遠低于適齡學生的平均水平，大語言模型應用于教育領域仍存在可靠性較差、可信度較低、具有偏見與歧視、推理能力不足、無法自動更新知識等問題。最后，文章針對大語言模型在中文語境下教育領域的應用提出建議，以期助力大語言模型在教育領域發揮更大的作用，為學生、教師帶來更好的學習和教學體驗。

關鍵詞：大語言模型；ChatGPT；訊飛星火；教育應用；測評

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097（2024）02—0062—10 【DOI】10.3969/j.issn.1009-8097.2024.02.007

引言

自2022年11月30日美國人工智能研究公司OpenAI發布生成式交互工具ChatGPT以來[1]，生成式大語言模型（Large Language Models，LLM）迅速進入主流，引起了前所未有的關注，國內外各大AI科技巨頭也紛紛投入其中，相繼發布各自的LLM。LLM通過模擬人類的語言交流，進行文本生成、代碼生成和圖像生成，深刻地影響著人類的生產生活方式，其應用場景非常廣泛[2]，包括問答功能、多語言潤色與翻譯、教育功能、內容概述等[3]，可以幫助用戶提高工作效率、生活質量和服務質量，幫助企業提高客戶滿意度和忠誠度、產品的競爭力和市場占有率[4]。然而，在進行實際應用時LLM仍存在一些局限和挑戰，其生成內容包含較大的不可解釋性和不穩定性，在安全、隱私和倫理方面也具有較大風險，這引起了全球范圍內的關注和擔憂。特別是在教育領域，以上局限會引發教育生態的潛在風險，包括知識異化的風險、學生主體性異化的風險、教學過程異化的風險、數字倫理風險、數字教育治理風險等[5]。

對此，美國教育部于2023年5月發布人工智能教育報告《人工智能與教學的未來》，指出針對當前人工智能在教育領域的大規模應用風險制定政策法規是當務之急[6]。同年6月，全國信息技術標準化技術委員會教育技術分技術委員會暨教育教育技術標準化委員會批準成立“教育通用人工智能大模型”系列標準工作組，以制定相關框架、數據、測評和安全標準，促進我國可信、安全、高效、好用的教育通用人工智能大模型的發展。除了相關的政策制定，大量國內外研究還對以ChatGPT為代表的LLM進行了傳統自然語言任務和各種考試能力的測評[7][8]，試圖量化LLM的應用能力與風險，但這些測評大多以英文為主，中文語境下教育領域的測評還相當缺乏[9]，其在中文語境下教育領域的測評效果與風險還有待驗證。為此，本研究以中學歷史學科為例，通過收集整理超過10萬條客觀選擇題和10套中學主觀題測試卷的中學歷史數據集，對ChatGPT、GPT-4等LLM在歷史知識掌握、審題、主客觀答題等方面的能力進行測評和比較，分析大語言模型在歷史學科中的應用成效與不足，為其在中文語境下教育領域的實際應用提供參考與指導。

一研究現狀

當前，ChatGPT、訊飛星火等一系列大語言模型在已有的公開自然語言數據集上都展現出了優秀的甚至最好的結果[10]。然而，這類傳統數據集可能已不再適用于評估LLM或已被其用于訓練，因此有大量研究者嘗試使用真實的人類考試題目對LLM進行測評。例如，GPT-4參加了美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、美國高考SAT數學部分和閱讀與寫作考試等。在這些考試中，GPT-4的得分高于88%的人類應試者[11]。但LLM也并非全能，其在一致性、錯誤示例響應以及邏輯推理等方面仍有待提高，如Borji[12]對ChatGPT的錯誤進行了全面分析，并總結出主要的錯誤類型，包括推理邏輯混亂、事實錯誤、數學與編碼能力較差和容易輸出偏見內容等。

隨著LLM在英文數據集上的評測已日趨成熟，其在中文數據集上的評測也逐漸進入研究者的視野，如有研究者測試和對比了ChatGPT[13]、文心一言[14]、盤古[15]、WeLM[16]、LaMDA[17]在中文情感分析、自動摘要、閱讀理解和閉卷問答上的性能表現，并測評了ChatGPT在中文語境下的問答知識錯誤和風險，以及錯誤混淆、事實不一致等諸多風險，認為ChatGPT在自然語言處理的經典任務中表現較好，但在閉卷問答方面出現錯誤的概率較高。此外，復旦大學研究團隊創建的評估大語言模型語言理解能力和邏輯推理能力的測評框架GAOKAO-bench收集了2010～2022年全國高考卷的題目，但僅包括1781道客觀題和1030道主觀題?？梢?，LLM在中文語境下教育領域的測評仍然不足。

二研究設計

為填補LLM中文教育領域測評研究匱乏的現狀，本研究嘗試通過中學歷史題測評多個大語言模型在教育領域的應用能力與局限。

1 測評數據集

本研究從作業幫、百度題庫等知名教輔資料網站分別搜集了國內中學歷史（包括初中和高中歷史）的客觀選擇題超過10萬條，并與來自上海不同知名中學的兩位資深初高中歷史老師開展深度合作，獲得原創初、高中試卷（以主觀題為主）各10套，形成了一個用于測評LLM的中學歷史數據集，具體如下：

（1）客觀選擇題

本研究首先從教輔資料網站分別獲取初、高中歷史客觀選擇題約10萬多條?？紤]到ChatGPT僅支持純文本形式輸入，本研究刪除了帶圖片以及重復的題目，驗證篩選了初中題目6萬多條和高中題目8萬多條（如表1所示），其中包含答案解析的初、高中題目分別有2萬多條、5萬多條。每個客觀選擇題包含問題描述、選項、正確答案、背景知識、題目解析（可選）等。其中，問題描述的長度一般不會超過50個中文字符，選項一般包含4個，且每個選項的長度平均為10個中文字符?？陀^選擇題主要通過判斷和引用歷史事實以及分類、判斷、總結考察大模型的知識儲備能力和邏輯推理能力。

（2）主觀題

本研究與上海兩所知名中學開展合作，分別設計了初中、高中歷史學科的測試卷各10套，篩選出初中題目41條，高中題目58條，共99條。每道主觀題一般提供4～5個相關材料，并圍繞材料和中學教育的知識點設計3個小題，以對大語言模型學習能力、知識掌握能力、材料閱讀和知識歸納概括能力進行綜合量化測評。

2 測評方法

本研究設計了一種人機協作測評方法，如圖1所示。其中，客觀選擇題主要基于微調模型和LLM進行自動評測，主觀題主要基于專家進行評估。

（1）客觀選擇題測評方法

對于客觀選擇題，其答案確定并唯一，只需判斷模型是否輸出了正確選項，因此針對這種題型可采用簡單、高效的大規模自動測評。由于目前還無法訪問GPT-4和訊飛星火的API，因此本研究只測試了ChatGPT的答題情況，并針對答題準確率進行統計和分析?？紤]到生成式大語言模型無法對歷史學科數據集進行訓練或微調，本研究將它與深度學習預訓練-微調語言模型（Bert、Roberta、T5）進行比較。例如，本研究使用歷史客觀選擇題數據集作為一項分類任務微調預訓練語言模型，使其將題目選項作為分類標簽，對比其與大語言模型在測試數據集上的準確率。

另外，本研究希望進行更有啟發性的實驗，使大語言模型更好地應用于中文教育領域，因此進行了知識融合的測試，即在提問中添加相關的知識點，以測評大語言模型在給定相關知識情況下的理解能力是否有提升。

由于生成式語言模型的本質仍然是概率模型，因此即使輸入相同，每次生成的輸出也可能完全不同。如果模型每次生成的答案都一樣，那么模型對該答案的確信度就是100%?；诖硕x，本研究進行了大語言模型對答案確信度的分析，即多次相同輸入的多數決采樣測試，來判斷ChatGPT答案的隨機性或確信度。

（2）主觀題測評方法

不同于客觀選擇題的自動測評，主觀題由專業老師進行評閱和打分。主觀題同時測試ChatGPT和New Bing/GPT-4的性能，從以下五個方面進行評分：

①得分率，即該題的分數，評價方式與批改學生試卷一致。

②知識點完整性（踩點率），即回答覆蓋標準答案的給分點數量。

③史實錯誤率，即回答中是否存在歷史事實和知識點的錯誤。

④邏輯合理性，即回答是否清晰易懂、邏輯是否合理，而與回答的正確性無關。

⑤語言自然通順性，即語言表達是否自然通順，是否符合中文的表達習慣，是否存在語法、拼寫等方面的錯誤。

除此之外，ChatGPT、New Bing/GPT-4以及訊飛星火分別參加了初、高中在校生的一次模擬考試。閱卷時，教師知道哪些是LLM完成的試卷，但并不知道具體由哪一個模型完成，以此測評ChatGPT、New Bing/GPT-4和訊飛星火的答題能力及其對應的學生層次。

三研究結果與分析

1 客觀選擇題的結果

根據上述測評方法，本研究對比了LLM與預訓練-微調模型在歷史客觀選擇題上的測試結果，即Bert、Roberta、T5、ChatGPT在1000條歷史客觀選擇題上的測試結果，如表2所示。其中，預訓練模型結果中同時給出了使用微調（w/ finetune）和不使用微調（w/o finetune）的結果。微調數據集使用總數據集中篩選出不包含1000條測試集的約8萬個樣本。由表2的測試結果可知，在不經過訓練的情況下，ChatGPT的參數量最多，且表現最佳：在初中題目上有超過60%的正確率，在高中題目上也有高于50%的正確率，平均正確率約為57%。用歷史客觀選擇題對Bert、Roberta、T5三個模型進行微調之后，Bert、Roberta幾乎沒有提升，T5的準確率大幅提高，平均達到75.63%。

融合知識是將相關知識直接添加到提問中用于輔助大語言模型作答，包括詳細的題目解析和題目背景兩種知識。表3是ChatGPT對兩種知識融合方式在初、高中各1000題上的測試結果，可以看出：在提問時增加一定的相關知識會提高ChatGPT的性能，特別是在融合詳細題目解析時，初中客觀選擇題的正確率從62.9%提升到了91.7%，高中客觀選擇題的正確率從50.1%提升到了68.5%。

表4展示了ChatGPT回答確信度的測試結果。本研究對初、高中各500題分別進行三次相同輸入，結果表明三次生成答案相同的分別只有54.8%、42.4%；其中，回答正確的占比更低，高中題目中ChatGPT回答的三次生成答案相同且回答正確的僅占三成?？梢?，ChatGPT的答案生成還不夠穩定，其確信度還有待提高。

2 主觀題的結果

除客觀選擇題外，本研究還同時對ChatGPT和New Bing/GPT-4針對初、高中試卷主觀題的答題能力進行了評測。由于評閱初中卷和高中卷的老師不同，兩者的主觀題試卷難度并沒有可比性，因此本研究主要關注同一年級試卷中ChatGPT和New Bing/GPT-4模型的結果對比情況，并進行了分析。

ChatGPT與GPT-4主觀題的測試結果如表5所示，可以看出：ChatGPT與New Bing/GPT-4在答題得分率上的表現皆不盡如人意。雖然GPT-4的得分率在初中水平測試中獲得了大幅的提升，但踩點率相比于ChatGPT卻下降了很多，這也體現了New Bing/GPT-4在答題上的保守性（在保證正確率的前提下再豐富作答角度）。在史實錯誤率上，New Bing/GPT-4得益于聯網搜索和更完善的模型，相較于ChatGPT有更加精確的史料引用能力，錯誤率大大降低，這也直接提升了New Bing/GPT-4邏輯推導的合理性。兩個模型的邏輯合理性和語言自然通順性都達到了較高的水平，能包含基本的論點、論據和結論，以對材料進行較強的總結和記憶，并通順、自然地表達觀點。

3 模擬考試的結果

為了測評大型語言模型的答題能力是否與適齡學生相當，本研究選用三個大語言模型——ChatGPT、New Bing/GPT-4、訊飛星火，在完全相同的環境下分別面向初、高中學生開展模擬考試，其成績與排名如圖2所示。其中，圖2（a）為初中卷得分分布統計表，縱軸表示分數，滿分30分；橫軸表示按分數高低排序后的學生序號。圖2（b）為高中卷得分分布統計表，縱軸表示分數，滿分100分；橫軸表示按分數高低排序后的學生序號。

由圖2可知，ChatGPT、New Bing/GPT-4、訊飛星火在初中卷的得分情況比較接近，而高中卷中New Bing/GPT-4的成績遙遙領先于ChatGPT和訊飛星火。但遺憾的是，三者的整體排名相對比較靠后，在初中共137位被測者（134位被測學生與3個被測模型）中，三個模型的排名分別為：New Bing/GPT-4、ChatGPT排名122，訊飛星火排名128；而在高中89位被測者（86位被測學生與3個被測模型）中，三個模型的排名分別為：New Bing/GPT-4排名60、ChatGPT排名84、訊飛星火排名86。

4 討論與分析

從以上結果可知，當前LLM的突出優勢在于其能夠產生完整且流暢的表達，且語法和寫作能力已接近甚至超過人類的平均水平，但在中學歷史知識測試中仍然遠遠低于適齡學生的平均水平，并低于微調后的中型預訓練生成模型。本次測評結果反映了LLM存在易輸出偏見內容、不可靠性、低可信度、邏輯推理能力不足、數據具有時限性等問題，大模型典型錯誤案例如表6所示。

①偏易輸出偏見內容。LLM訓練數據的全球性，從根本上決定了其價值觀不可能與我國社會的主流價值觀完全一致。例如，針對表6的問題1，ChatGPT的回答是維護人權，GPT-4的回答是支持科索沃獨立，而正確答案應為加強對巴爾干的控制。

②不可靠性。在測試的99個主觀歷史題目中，ChatGPT的38條回答出現了不同程度的歷史事實錯誤或史實捏造。例如，針對表6的問題2，GPT-4和ChatGPT都無法正確回答“兩彈一星”具體所指的內容，正確答案應為原子彈、導彈、人造衛星。

③低可信度。在對500道高中客觀選擇題進行三次相同輸入，ChatGPT回答的三次生成答案相同的比例約占42.4%，其中只有30%的答案相同且回答正確，如表4所示?？梢?，ChatGPT的答案生成還不夠穩定，其確信度還有待提高。

④邏輯推理能力不足。雖然GPT-4表現了比ChatGPT、訊飛星火更強的推理能力，但與本研究合作的上海知名中學的兩位歷史老師認為，對于歷史學科而言，GPT-4的很多回答并沒有聚焦核心史實的論證，也較少聯系材料，雖然其能夠辯證地看待觀點分析的題目，但是缺乏對深層次觀點的關注和論證。例如，針對表6的問題3，ChatGPT忽略了“導致清朝北洋艦隊全軍覆沒的戰役”和“威海衛戰役”之間的強關聯。

⑤數據具有時限性。LLM的知識完全來源于所訓練的數據，它無法感知世界，無法自動更新知識，因此無法回答超出訓練數據截止日期之后的事件和知識。例如，針對表6的問題4，ChatGPT和GPT-4明確表示無法回答2021年9月之后的事件；訊飛星火訓練數據的截止日期未知，也同樣無法回答2022年11月11日的事件。

四總結與建議

本研究以中學歷史學科為例，探討了大語言模型在教育領域的應用能力與存在的局限，通過收集整理超過10萬條題目的中學歷史客觀測試數據集和原創初、高中主觀題試卷，在以ChatGPT、GPT-4和訊飛星火為代表的LLM模型上進行了大量實驗和分析。結果表明，當前LLM的突出能力在于其能夠產生完整且流暢的表達，其語法和寫作能力已接近甚至超過人類平均水平，但在中學歷史知識測試中仍然遠遠低于適齡學生的平均水平，在知識儲備、邏輯推理等方面還存在提升空間。在教育領域，LLM出色的文本生成能力，可以用于學生的學習和教師的輔助教學，因此在應用時應該趨利避害，用積極的批判態度去擁抱代表更高生產力的新技術。針對LLM在中文語境下教育領域的應用，本研究提出以下建議：

①學生方面，可以合理利用LLM提供的建議、思路或提示，但不建議完全照搬大語言模型的輸出結果。特別是對于低年級、低齡段的學生，大量的生成文本會含有冗余或完全錯誤的內容，甚至會突出中西方價值觀的差異，這些都非常容易誤導學生，使其在學習過程中產生疑惑。因此，學生在使用LLM進行學習的過程中要學會運用批判性思維，分辨是非曲直。對此，大模型是一個非常好的對話工具，能夠循循善誘地為學生答疑解惑，提供引導式的學習體驗和跨學科知識的支持。

②教師方面，需盡可能發揮LLM的輔助教學作用。在99道主觀題中，ChatGPT在8個回答中正確引用了超出課本的知識和史料記載等，因此可以在教學過程中將其作為輔助的教學材料，對課堂教學進行補充。在能夠判斷大語言模型的回答是否正確的前提下，使用大語言模型進行批判性的知識索引和審查可以提高教師的教學水平。其中，GPT-4的理論性更強，答題的正確率較高，因此可以提供更多的教學和解題思路。此外，大模型具有強大的語言理解和生成能力，可以幫助教師進行作文批改，從而為學生提供個性化的分析與指導，實現對學生的因材施教。

③科研人員方面，解決LLM存在的諸多局限和問題是重要的研究任務。教育是特殊的應用領域，具有知識準確性、意識形態正確性、過程可解釋性等要求。要達到這樣的目標還有大量的工作尚待完成，如獲取特定的學科相關訓練數據、融合學科知識圖譜、保護用戶隱私數據、去除有害的或存在偏見的內容等。當前科研人員亟須解決LLM存在的諸多局限和問題，探索數字教育與智能教育的新范式，通過構建可控、可信、安全、綠色、好用、高效的教育通用人工智能大模型，建立有教育溫度、以育人為本的人工智能及其智能教育環境，才能更好地賦能、賦智教育，推進教育數字化發展。

④管理人員方面，需要制定相應的政策和標準，規范LLM功能、框架、數據和評測標準，防止LLM在教育產品中的濫用。雖然對于LLM在中文語境下教育領域應用的研究正在不斷推進，但是如何保證應用過程中的規范性同樣重要，這就需要管理人員針對LLM的相關使用規則做出明確規定，引導正確的研究和應用方向，從而推動構建適應未來世界的教育模式，形成“思維比知道重要、問題比答案重要、邏輯比羅列重要”的學習評價新思維[18]。

綜上所述，LLM在中文語境下教育領域的應用既面臨挑戰，也有較大的發展潛力。通過解決模型的不足，不斷優化模型，并與教育大數據對齊，可以讓大模型才能更好地賦能、賦智教育。期待大語言模型在教育領域發揮更大的作用，為學生和教師帶來更好的學習與教學體驗。

參考文獻

[1]Ouyang L， Wu J， Jiang X， et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems， 2022，35：27730-27744.

[2]Bubeck S， Chandrasekaran V， Eldan R， et al. Sparks of artificial general intelligence： Early experiments with GPT-4[OL].

[3]Park J S， OBrien J， Cai C J， et al. Generative agents： Interactive simulacra of human behavior[A]. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology[C]. 2023：1-22.

[4]Eloundou T， Manning S， Mishkin P， et al. GPTs are GPTs： An early look at the labor market impact potential of large language models[OL].

[5][9][13]張華平，李林翰，李春錦.ChatGPT中文性能測評與風險應對[J].數據分析與知識發現，2023，（3）：16-25.

[6]US Department of Education. AI and the future of teaching and learning： Insights and recommendations[OL].

[7][10]Zhao W X， Zhou K， Li J， et al. A survey of large language models[OL].

[8]Nunes D， Primi R， Pires R， et al. Evaluating GPT-3.5 and GPT-4 models on Brazilian university admission exams[OL]. .

[11]OpenAI. GPT-4 technical report[OL].

[12]Zeng W， Ren X， Su T， et al. Pangu-α： Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

[14]Wang S， Sun Y， Xiang Y， et al. Ernie 3.0 titan： Exploring larger-scale knowledge enhanced pre-training for language understanding and generation[OL].

[15]Zeng W， Ren X， Su T， et al. Pangu-α： Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

[16]Su H， Zhou X， Yu H， et al. Welm： A well-read pre-trained language model for Chinese[OL].

[17]Thoppilan R， De Freitas D， Hall J， et al. Lamda： Language models for dialog applications[OL].

[18]沈書生，祝智庭.ChatGPT類產品：內在機制及其對學習評價的影響[J].中國遠程教育，2023，（4）：8-15.

Evaluation and Analysis of Large Language Models Application in of Historical Discipline Middle Schools

Abstract： Large language models （LLMs） have received wide attention since its release， while there are still many limitations and challenges in their practical application， especially in the field of education. Therefore， it is necessary to evaluate the capability and risk of LLMs in the Chinese context. Based on this， this paper firstly collected and sorted out a historical dataset for middle school students including more than 100，000 objective multiple choice questions and 10 sets of subjective questions， and tested the answer performances of the questions in the data set of the LLMs represented by ChatGPT， GPT-4 and IFLYTEK Spark. Then， the paper analyzed the test results in detail and found that although the outstanding ability of the current LLMs lay in its ability to produce complete and fluent expression， and its performance in the history knowledge test of middle school was still far below the average level of school-age students.

The application of LLMs in education still had some problems： such as poor reliability， low credibility， prejudice and discrimination， insufficient reasoning ability and inability to update knowledge automatically. Finally， some suggestions were proposed for the application of LLMs in the field of education in the Chinese context， in order to help LLMs play a greater role in the educational field and bring better learning and teaching experience for students and teachers.

Keywords： large language models， ChatGPT， IFLYTEK Spark， education applicational， evaluation and analysis