?

大語言模型評測綜述

2024-03-26 02:52王厚峰
中文信息學報 2024年1期
關鍵詞:幻覺評測基準

羅 文,王厚峰

(北京大學 計算機學院,北京 100871)

0 引言

自2017年Google提出Transformer以來,自然語言處理的研究已逐步統一到這種具有靈活堆疊擴展能力的編解碼框架下。特別是,人們可以基于Transformer的編碼端和解碼端,通過無監督的方式,使用大規模數據預訓練具有通用語言能力的基礎模型,如基于編碼端的BERT[1]、基于解碼端的GPT[2],以及融入編碼和解碼結構的BART[3]、T5[4]等。當這些預訓練的基礎模型與下游任務適配后,不斷地刷新最優結果。為了評估模型的能力,研究人員提出了許多針對這些模型在下游任務上性能表現的評測基準。

預訓練語言模型的規模越來越大,參數量從開始的億級,發展到目前的千億級甚至萬億級。隨著規模的擴大,模型在無須對具體任務適配的情況下,解決下游任務的能力也迅速提升。但與此同時,模型自身的各項能力和屬性、應用的局限性、潛在風險及其可控性等仍未得到全面評測和深入研究。由于大語言模型的迅速發展和巨大影響,以及通用性的日益增強,傳統基于單一任務的單一評價方法已經無法適應新的評測需求。首先,缺乏廣度和深度。面對許多出色的大語言模型,僅在幾個已有的基準數據集上往往難以區分它們的優劣。其次,存在數據偏差的問題。許多用于評測的數據集都是從特定的領域或人群中收集,這可能導致模型在基準數據上的表現難以準確反映其在真實應用場景中的性能。再者,忽視模型其他方面的能力或屬性評估。先前的評測方法往往只關注模型的性能表現,忽視了對模型其他方面的能力或屬性評估。例如,對模型邏輯推理能力的評估、對模型魯棒性的評估和對模型生成有害內容可能性的評估等。因此,在大語言模型不斷發展的同時,模型評估方法也需要進一步研究。

本文首先回顧了自然語言處理中有代表性的評測基準與評估指標,針對大語言模型的評估對評測范式進行了分類,將其分為經典評測范式和新型評測范式,分析了現有評測的不足;再介紹了全面的大語言模型評測思想,以及相關的評測指標和評測方法;最后對目前廣受關注的大語言模型評測的一些新方向做了總結。需要說明的是,本文所指的大語言模型并沒有嚴格規定模型規模的大小,凡以預訓練為基礎具有“通用”能力的語言模型都屬于本文所指的大模型。

1 自然語言處理的評測范式

自然語言處理的發展受益于自然語言處理評測。評測通常依賴于一系列的評測基準(Benchmark),模型在這些基準數據集上運行并產生輸出結果,評測系統據此返回一個代表模型能力的值。最簡單的評測基準由單一任務上的單一數據集構成,這也是常見的自然語言處理基本評測模式。為了全面評估大語言模型,可以將多個數據集聚合和重新組織,形成一個更通用的評測基準。本章針對大語言模型的評估對評測范式進行了分類,將其分為經典評測范式和新型評測范式。表1列出了一些典型的評測基準。下面將分別介紹經典評測范式,以及面向多種能力的新型評測范式與現有評測的不足。

表1 一些典型的評測基準

1.1 經典的自然語言處理評測

自然語言處理分為自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation, NLG)兩個大類。但在經典評測范式下都主要關注模型最終輸出結果與參考答案的匹配程度。經典評測的結構如圖1所示。

圖1 經典評測的結構

1.1.1 自然語言理解能力評測

常見的自然語言理解任務有情感分析(Sentiment Analysis)、文本匹配(Text Matching)、文本分類 (Text Classification)和閱讀理解(Reading Comprehension)等。針對具體的任務已有大量的相關評測基準。2018年,McCann等人[5]提出了 DecaNLP,試圖以統一的問答形式評測 NLU 能力。 該基準涉及 10 個任務,與這些任務相關的數據集均以三元組形式表示,如(問題,上下文,答案)。在評測時,給模型輸入(問題,上下文),模型輸出“答案”,然后再計算模型答案與參考答案的匹配程度。

紐約大學和華盛頓大學等機構的研究人員提出了評測數據集GLUE[6],由9個自然語言理解任務組成,包括情感分析、文本蘊含、句子相似性等。隨著模型的進一步發展,GLUE進一步升級為SuperGLUE[7]。SuperGLUE在 GLUE 的基礎上增加了五個難度更高的評測任務。

上述基準僅限于英語。為了填補跨語言的模型評測空白,卡耐基梅隆大學和谷歌等單位的研究人員提出了XTREME[8]。 XTREME是一個大規模、多任務、多語言的模型評測基準,涉及 40 種不同的語言,共 9 個任務。幾乎與XTREME同時出現的XGLUE[9]也是一個跨語言的模型性能評測基準,由11個任務組成,涵蓋19種語言。

在中文信息處理方面,第一個大規模的中文理解評測基準CLUE[10]于2020年提出,CLUE中的任務集涵蓋了文本分類、閱讀理解、自然語言推理等多個中文自然語言理解任務和一個診斷評估數據集,具體包含: 長文本分類IFLYTEK[10]、語義相似度計算AFQMC[10]、中文命名實體識別CLUENER[11]、中文自然語言推理OCNLI[12]、成語完形填空ChID[10]、小樣本(few-shot)測評FewCLUE[13]和零樣本(zerow-shot)測評ZeroCLUE[13]等。CLUE提供了一種標準化的評估方式來測評模型的中文理解能力。

1.1.2 自然語言生成能力評測

自然語言生成的典型任務是機器翻譯(Machine Translation)、生成式文本摘要(Generative Text Summarization)、自動對話(Dialogue)等。BLEU[14]是評測機器翻譯任務中譯文質量的一個重要指標。在機器翻譯的評測中,每段原文都有一組高質量的參考譯文(Reference),模型生成的譯文被稱為Candidate。BLEU通過衡量模型生成譯文與參考譯文之間的N-gram匹配程度來計算得分。BLEU的評測得分是一個0~1之間的數值,表示生成譯文與參考譯文的相似程度。BLEU值越接近1,表示生成譯文與參考譯文之間的相似度越高,也意味著翻譯結果的質量越好。此外,用于機器翻譯生成譯文的評估指標還有METEOR[15]等。

ROUGE[16]是生成式文本摘要任務常見的評測指標,ROUGE和BLEU在計算上非常相似,區別在于BLEU更關注精確度,而ROUGE更關注召回率。ROUGE-N指的是用n-gram對參考摘要和模型生成摘要分別進行拆分后得到的兩個集合之間的重合率,分母為參考摘要n-gram集合的長度。

在國內,四川大學和微軟的研究人員于2020年提出了用于評測生成能力的GLGE[17]。該基準涵蓋了生成式文本摘要、問題生成(Question Generation,QG)、生成式問答(Generative Question Answering,QA)和對話4個領域,并且根據難易程度分為三個級別: GLGE-easy、GLGE-medium 和 GLGE-difficult。

SemEval是一個語義處理國際評測研討會,目標是推進語義分析技術進步,并幫助創建高質量的標注數據集以應對自然語言語義領域越來越具挑戰性的問題。每年的研討會都包括一系列的共享任務,不同團隊設計的計算語義分析系統在這些任務中進行展示和比較。以SemEval-2022的任務9[18]為例,該任務要求模型從英語烹飪食譜和相關視頻中回答問題,以此評估模型在表達和推理時具有的語言能力和認知能力。

GEM[19]是一個活躍的自然語言生成評測基準,側重于通過人類注釋和自動化度量對模型的NLG能力進行評估。GEM旨在衡量多語言下各種NLG任務的進步,并以數據卡片和模型卡片的方式展示相關的數據集信息和模型評測結果。此外,它還致力于結合自動化度量和人類度量方法制定生成文本評估標準。具體來說,GEM囊括了11個數據集(包括CommonGEN[20]、Czech Restaurant[21]、DART[22]、E2E clean[23-24]、WebNLG[25]、WikiLingua[26]等),涉及英語、西班牙語、土耳其語、俄語、越南語等18種語言。

1.1.3 同時考慮理解和生成的能力評測

隨著大語言模型的迅速發展及其在下游任務上的廣泛應用,僅僅局限于評估模型某一種能力的評測基準逐漸無法滿足評測需求。在這種背景下,許多新的更為全面的評測基準不斷推出。這些評測基準的一個重要特點就是它們通常會聚合多個數據集、多個任務以及多個評測指標來對模型進行更全面的能力評測。

為了更好地對通用語言能力進行基準測試,北京大學、清華大學以及北京智源人工智能研究院等研究機構聯合提出了一個評估漢語理解和生成能力的評測基準CUGE[27]。CUGE在語言能力-任務-數據集層次框架中選擇和組織數據集,涵蓋了7種重要的語言功能,包括: 字句級別的語言理解能力(Language Understanding: Word-sentence Level)、語篇級別的語言理解能力(Language Understanding: Discourse Level)、信息獲取和問答能力(Information Acquisition and Question Answering)、語言生成能力(Language Generation)、對話式交互能力(Conversational Interaction)、多語言能力(Multilingualism)和數學推理能力(Mathematical Reasoning);在這7種語言功能下進一步細分到18個主流NLP任務,包括: 命名實體識別(Named Entity Recognition)、實體關系抽取(Entity Relation Extraction)、語法糾錯(Grammatical Error Correction)、閱讀理解(Reading Comprehension)、開放領域式問答(Open-domain Question Answering)和機器翻譯(Machine Translation)等;再根據相應的NLP任務挑選出21個數據集,例如,在命名實體識別任務中使用了CMeEE數據集[28],在語法糾錯任務中使用了YACLC數據集[29]。該框架是根據人類語言考試大綱和目前的自然語言處理研究現狀精心設計的。

在國外,為了解決大語言模型的量化評估及評估結果復現問題,EleutherAI提出了EleutherAI LM Harness[30],這是一個針對自回歸大語言模型(Autoregressive Large Language Models)的統一基準測試框架。它涵蓋200多個數據集,支持包括但不限于GPT-3[31]、GPT-NeoX[32]和GPT-J[33]等自回歸大語言模型。同時,為了保證評測結果可復現,基于EleutherAI LM Harness的評測提供統一的評測接口和對應評測任務的版本控制。

1.2 面向多種能力的新型評測范式

與經典評測范式不同,新型評測范式不僅關注大型語言模型在理解和生成方面的能力,同時也關注模型本身所表現出的更多重要屬性。例如,模型生成的內容是否符合社會道德準則。新型評測范式使得研究者能夠從更多維度和更深層次去理解和評估自然語言處理模型的性能,從而推動自然語言處理技術的進一步發展和完善。

1.2.1 多種屬性的能力評測

為了追蹤大語言模型的規模對模型表現的影響,探究大語言模型本身是否存在基礎性能力和屬性上的缺陷,Google聚集442名研究人員耗時兩年,于2022年發布了評測基準BIG-bench[34]。該基準涵蓋200多個數據集,分為9個主要方向,分別為: 傳統自然語言處理任務(Traditional NLP Tasks,包括自然語言理解任務和自然語言生成任務)、邏輯、數學和代碼(Logic,Math,Code)理解、對世界的理解(Understanding the World)、對人類的理解(Understanding Humans)、對科學技術的理解(Scientific and Technical Understanding)、與模型的交互機制(Mechanics of Interaction with Model)、針對通用語言模型的能力短板(Targeting Common Language Model Technical Limitations)、行為是否符合既定社會道德準則(Pro-social Behavior)以及其他(Other)。對于尚未包括在評測基準里的任務和數據集,BIG-bench支持研究者提交和更新,這使得評測基準能夠隨著大語言模型的發展而同步發展,為更加全面地評測大語言模型提供了更多可能。

除了評估大語言模型核心的基礎能力外,還存在一些衡量這些模型與人類偏好的對齊程度的評測基準。其中,MT-Bench[35]和Chatbot Arena[35]是兩個常用的評測基準。MT-Bench是一個包含80個手工編寫的高質量開放式多輪問題的評測基準,其目標是評估大型語言模型在多輪對話和指令遵循方面的能力。該基準涵蓋了8個常見的人機交互場景,包括: 寫作、角色扮演、信息提取、推理、數學、編程、自然科學知識和人文社會科學知識。針對每個場景,研究人員精心編寫了10個多輪問題,用以評估大語言模型在面對這些問題時與人類偏好的一致性。與MT-Bench不同,Chatbot Arena是一個眾包匿名基準測試平臺。在該平臺上,用戶可以同時與兩個匿名的大語言模型進行交互。用戶可以自由地向這兩個模型提出相同的問題,并根據個人偏好評價它們的回答。在Chatbot Arena開始運作的一個月內,研究者們便收集到了約30 000條評測數據,這種眾包方式為大量用戶動態參與提供了可能,增強了評測結果的廣泛覆蓋性和多樣性。

在中文方面,2023年5月9日, SuperCLUE-Open評測基準正式發布,這是一個評估大語言模型中文對話能力和遵循指令能力的評測基準,包含1 200道中文的高質量多輪問題。該基準不僅包括一些普通的常規使用場景,還設計了一些具有挑戰性的指令以增加不同模型的區分度。它考察了模型的十大能力,包括: 語義理解與抽取、閑聊、上下文對話、角色扮演、知識與百科、生成與創作、代碼、邏輯與推理、計算、代碼和安全。每個子能力有60個題目,每個題目包括兩輪問題,從中文語境下與人類偏好的對齊程度方面對大語言模型進行了評估。

C-EVAL[36]是一個綜合的中文評測基準,旨在評估中文語境下大語言模型的知識運用與推理能力,為研究者理解和評估中文語境下的大語言模型能力提供了重要的工具和資源。該評測基準總共包含13 948個多項選擇題,涵蓋了中學、高中、大學和專家四個難度級別。這些題目來自52個不同的學科領域,包括人文科學(例如,中國語言文學、藝術學、歷史學等)、理工科(例如,高等數學、大學化學、計算機組成、注冊電氣工程師等)和社會科學(例如,政治學、教育學、工商管理學等)等。此外,研究者還基于C-EVAL構建了一個難度更高的評測基準子集C-EVAL HARD。C-EVAL HARD中的題目對知識運用與推理能力的要求更高,例如,高等數學題、大學物理考試題等。值得指出的是,為了確保評測數據不被污染,C-EVAL的題目并非直接從官方的國家考試中選取,而是主要采集自模擬考試和小規模的地方考試。研究者可以通過C-EVAL評估中文語境下的大語言模型在各個學科領域和不同難度級別下的表現。

SAFETYPROMPTS[37]是一個中文大語言模型安全評測基準。該基準從8種典型的安全場景和6種對抗性的指令攻擊場景綜合探索了大語言模型應用中的安全性問題。其中,安全場景分別為: 侮辱(Insult)、不公平和歧視(Unfairness and Discrimination)、犯罪和非法活動(Crimes and Illegal Activities)、敏感話題(Sensitive Topics)、身體傷害(Physical Harm)、心理健康(Mental Health)、隱私和財產權(Privacy and Property)、倫理和道德(Ethics and Morality);指令攻擊場景分別為: 目標劫持(Goal Hijacking)、提示泄漏(Prompt Leaking)、角色扮演(Role Play Instruction)、不安全的話題引導(Unsafe Instruction Topic)、不安全的觀點詢問(Inquiry with Unsafe Opinion)和逆向曝光(Reverse Exposure)。為了構建SAFETYPROMPTS評測基準,研究者們首先根據這14個場景人工編寫了一個測試數據集,再利用ChatGPT對測試數據集進行增廣,形成更多的基準數據,最終形成了10 000個評測數據。通過SAFETYPROMPTS評測基準,研究人員可以較為全面地了解大語言模型在典型安全場景和對抗性指令攻擊下的表現,提升大語言模型的安全性能,減少大語言模型的潛在安全風險。

復旦大學的研究人員提出了一個名為LLMEVAL(1)https://github.com/llmeval的中文評測系列,以回答關于大語言模型評估方面、評估方法和排序比較方法的問題。目前已經公開的評測基準包括LLMEVAL-1和LLMEVAL-2。LLMEVAL-1從認知心理學的角度出發,以人類信息處理、思考和問題解決能力為基準,從正確性、流暢性、信息量、邏輯性和無害性五個評估方面構建了一個包含17個大類、453個問題的評測問題集,涵蓋了事實性問答、閱讀理解、框架生成、段落重寫、摘要、數學解題、推理、詩歌生成和編程等多個領域。LLMEVAL-2則以一般用戶的日常使用場景為背景,從12個學科(包括,生命科學、化學、漢語言文學、數學、經濟學、法學等)出發構建了一個包含480個問題的評測問題集,重點評估了大語言模型在各學科本科生和研究生希望在日常學習和生活中得到幫助的任務上的表現。

除了上述評測基準以外,還存在許多其他用于評估大語言模型的多種能力屬性的評測基準。例如,考察大語言模型的知識運用能力的TriviaQA[38]和OpenBookQA[39]、考察大語言模型數學推理能力的GSM8k[40]、評估大語言模型檢測幻覺能力的HaluEval[41]等。

1.2.2 模型評測實例——GPT-4的評測

為了凸顯GPT-4的總體表現,OpenAI在一系列評測基準上對GPT-4進行了評估[42]。這些評測基準既包含最初為人類設計的模擬考試,也包含在傳統自然語言處理任務上用來評估語言模型的評測基準。為人類設計的模擬考試包括: SAT Math、Leetcode等。其中,SAT Math的考察內容是學生在大學和未來生涯期間可能會遇到的數學問題,主要包托: 代數核心(Heart of Algebra)、問題求解與數據分析(Problem Solving and Data Analysis)和高等數學基礎(Passport to Advanced Math);Leetcode則主要考察待測者的綜合代碼能力。上述模擬考試題由多項選擇題(Multiple Choice Question)和主觀題(Free-Response Question)兩種模式組成。傳統自然語言處理任務上的評測基準包含MMLU[43]、HellaSwag[44]、HumanEval[45]、DROP[46]等。其中,MMLU是一個涵蓋STEM、人文科學、社會科學等57個學科領域(例如,數學、法律、倫理等)的評測基準,旨在考察大語言模型將知識運用于問題解決的能力;HellaSwag關注模型在圍繞日常事件的常識性推理方面的能力,包含70k個問題;HumanEval主要考察大語言模型的代碼生成能力;DROP則是一個閱讀理解與數值推理基準測試數據集,包含96k個問題,用于評測模型在離散推理任務上的表現。這些評測基準不僅關注GPT-4作為一個大語言模型在傳統自然語言處理任務上的表現,更關注GPT-4在更高層次問題求解上的能力(例如,推理、知識、語言與理解能力)。評測結果表明,在大多數專業類考試和學術類考試中GPT-4具有與人類相當的表現;而在多個傳統的自然語言處理評測基準上GPT-4已經達到了最先進的效果。此外,GPT-4還在評測中展現出了其他方面的能力,例如,處理低資源語言(low-resource language)的能力[42]。研究人員通過Azure Translate將MMLU中的數據翻譯成其他多種語言,之后將各個語言版本的MMLU用于評測GPT-4,結果表明GPT-4具有較強的處理其他語言的能力,包括拉脫維亞語(Latvian)、威爾士語(Welsh)和斯瓦希里語(Swahili)等小語種。

以體現人類級別的認知能力與強調和現實世界的緊密聯系為原則,微軟的研究人員提出了一個以人為中心的評測基準AGIEval[47],并在其上評測了GPT-4和ChatGPT等大語言模型的表現。與傳統評測數據不同,AGIEval中的評測數據來自高標準化、官方的人類考試題,其中包括: 研究生入學考試(Graduate Record Examinations,GRE)、學術評估測試(Scholastic Assessment Test,SAT)、中國高考(China College Entrance Exam,Gaokao)、法學院入學考試(Law School Admission Test,LSAT)、美國數學競賽 (American Mathematics Competitions,AMC)、中國公務員考試 (Chinese Civil ServiceExamination)等。與文獻[35]不同,為了更加標準和自動地評測大語言模型,AGIEval在題型上刪除了所有的主觀題,只保留了客觀題(包括多項選擇和填空)。在AGIEval評測中共有四種設置,即,零樣本學習(Zero-shot learning)、小樣本學習(Few-shot learning)、零樣本思維鏈(Zero-shot chain-of-thought prompting)和小樣本思維鏈(Few-shot chain-of-thought prompting)。評測結果表明: ①GPT-4在LSAT、SAT和數學競賽中超越了人類的平均表現,在SAT數學考試中達到了95%的準確率,展示了出色性能。②當前的大語言模型(如GPT-4)在面對需要復雜推理(如LSAT分析推理和物理學)或特定領域知識(如法律和化學)的任務時仍然表現不佳。③與先前GPT-3系列模型的小樣本表現顯著優于零樣本表現不同,GPT-4等當前的大語言模型的零樣本學習能力開始逐漸接近它們的小樣本學習能力。

1.3 現有評測的不足

隨著不同通用大語言模型的推出,現有評測及基準的不足開始顯現。這使得在應用上如何選擇模型以及在開發上如何改進模型都面臨極大的挑戰。下面簡要分析現有評測的不足。

1.3.1 新生任務缺乏相應的評測基準

隨著通用大語言模型的迅速發展,需要在更多的應用場景和任務上評測模型的效果。但是,一些新生任務缺乏相應的評測基準。這樣,研究者難以了解大語言模型在這些任務上的表現能力,從而制約在該領域的進一步發展。利用評測基準進行評估是衡量模型性能和比較不同模型的重要途徑。缺乏評測基準會導致研究人員無法準確評估模型的性能,也難以使許多新生的算法和模型被有效地評估和比較。此外,缺乏評測基準還會影響研究人員對新生任務的理解和定義。因此,建立相應的評測基準對于模型在新生任務上的應用研究至關重要,這也有助于研究者更好地理解大語言模型在新生任務中的應用潛力。

1.3.2 評測任務缺乏區分度

隨著大語言模型的發展和規模的不斷擴大,其能力也越來越強,以至于它在一些評測任務上的表現已經與人類相當[42],甚至評測結果可以超越人類。在這種情況下,許多原來以較小規模模型為評測目標的評估任務已經逐漸失去了挑戰性和區分度,難以為研究者提供有價值的信息。缺乏區分度這一問題不僅是評測基準本身的問題,也反映出了大語言模型發展的一個重要趨勢,即現有的大語言模型的發展已經開始超出原有的評估任務的評測范圍。因此,需要更加注重評測任務的區分度和難度,以確保評測結果具有實際可參考的意義。

1.3.3 評估方式不公平

在大語言模型的評估中,評估方式的公平性至關重要。然而,目前常用的評估指標和數據集選擇存在許多不公平的問題,使得評估結果的準確性和客觀性受質疑。例如,當前同一任務下的評測數據集通常有很多,很有可能會產生模型A在某個評測數據集上優于模型B,但是在另一個評測數據集上又劣于模型B的矛盾情況。這種情況下,研究者可能只選取有利于自己的結果公布[48]。此外,人為因素也可能導致評估結果的不公平。例如,在人工評測中,評測人員的背景、觀點和經驗可能影響他們對模型的判斷,從而在評測結果中引入人為的偏差;同時,在不同的人工評測過程中,評估標準化程度也可能存在差異,從而進一步削弱了不同模型間的可比性和公平性。

1.3.4 評估不全面

目前,對模型單項能力的評測往往被簡化成針對單個任務上的單數據集單指標的評測,無法準確可靠地反映模型在待評測能力方面的強弱[48]。例如,針對自然語言生成能力的評測,需要考察生成文本的連貫性、多樣性、幻覺程度和有趣程度等多個方面,但不同方面往往適用不同的評測指標。而且,不同的任務和數據集會涉及不同的語言現象和應用場景,這是單個任務上的單數據集單指標評測有失考量的內容。此外,對模型綜合能力的評測大多是單個評測基準的簡單聚合,缺乏系統性的交互,也無法全面評估模型的綜合能力和多種屬性。

1.3.5 評測基準的污染問題

所謂評測基準的污染問題,是指用于評測的數據出現在了模型的訓練數據中。為了確保大語言模型評估的公正性和可信度,以及評測基準能夠展現的具有一般性的評測結果,評測基準中的測試數據不應當被包含在大語言模型的訓練數據中。由于目前的大語言模型是在多個來源的龐大數據集上訓練的,研究者很難確定當前使用的評測基準是否泄漏到了模型的訓練數據中。這種污染會對評測基準的公正性和可信度產生一定程度的影響。因此,評測基準的構建者需要謹慎考慮以確保評測基準的獨立性和代表性;評測基準的使用者也需要注意這一問題。當然,未來大語言模型的研發者應盡可能明確模型在訓練時可能存在的污染問題以及污染程度[42]。

1.3.6 評估結果缺乏可解釋性

在大語言模型評測中,評測結果的可解釋性常常被忽視?,F有評測基準通常依賴某個數字指標來概括模型的表現,缺乏對評估過程的解釋和分析。這種評估方式雖然可以快速了解不同模型的表現,卻難以解釋模型表現好壞的原因,也就難以對模型進行有效診斷,進而難以有針對性地對現有模型進行改進和優化??山忉屝缘娜笔е饕憩F在以下兩個方面。第一,評估結果的數字化方式使得研究人員難以全面了解模型在評測任務中的行為,也就無法直接對模型的優劣進行深入的分析與解釋。第二,現有的評測基準往往是針對特定的應用場景和任務設計的,限制了評測結果的可遷移性和可解釋性,難以被推廣到其他應用場景和任務中。

2 全面的大語言模型評測

隨著大語言模型的影響越來越廣泛,如何更好地評測模型已經成為研究界關注的熱點問題。一項代表性的工作就是Liang等人[49]提出的語言模型的全面評估(Holistic Evaluation of Language Models,HELM)方法。

HELM的出發點是在多個場景、任務和評估指標下評估大語言模型的能力。HELM首先對自然語言處理涉及的眾多場景和任務進行了分類和篩選,并以應用性的任務作為評測重點,基于可行性和全面性從當前主要的評測數據中選擇了一部分用于大語言模型的評測。其次,明確了大語言模型評估里需要考慮的7個評測指標(如準確率),同時又設計了7個更具針對性的評估維度(如語言能力、推理能力等)。最后,HELM對30個大語言模型(包括BLOOM[50]、GPT-3、GPT-NeoX、GPT-J、GLM[51]等)在42個場景和上述評測指標下進行了評測,并公開了評測結果。HELM也指出了其評測中存在的遺漏和不足,例如部分場景和任務的缺失、部分評估方法的不足、部分模型和適配策略的遺漏等。

由于不少大模型不再開源(如ChatGPT),全面評測大模型存在一定困難。HELM為了模擬現實中人們通過API訪問大語言模型的情形[14],在評估中將大語言模型視為黑盒,這也是上述提及此次評估中的遺漏和不足之一。

下面結合HELM用到的評測屬性對其分別進行介紹,包括: 準確率(Accuracy)、校準度(Calibration)、泛化(Generalization)能力、適配(Adaptation)能力、魯棒性(Robustness)、效率(Efficiency)、偏見和刻板印象(Bias and Stereotypes)、公平性(Fairness)和有害性(toxicity)。

2.1 準確率

準確率是指模型預測或生成結果的正確比例。一個準確率高的大語言模型能夠更好地處理自然語言的相關任務,并提供更準確的預測和生成結果。大語言模型的準確率對于其在具體任務中的應用至關重要。

準確率的評估方法因場景和任務而異。常見的指標有: 判別類問題的評測指標,如F1(包括 MicroF1和 MacroF1)值和Accuracy值;生成類問題的評測指標 BLEU(主要用于機器翻譯結果評測)和ROUGE(主要用于文本摘要結果評測);判別類問題和生成類問題都用到的精確匹配(Exact Match,EM);檢索類問題常用的Reciprocal Rank[52]和Normalized Discounted Cumulative Gain[53]等。

準確率指標在自然語言處理的評測中廣為使用,在很長一段時間里幾乎成為模型評測的唯一指標。在今后仍將是重要的指標。

2.2 校準度

準確率衡量的是模型輸出結果的正確性,而校準度[54-56]則是衡量模型對輸出結果賦予的概率的準確性,也就是模型在預測時給出的置信度(confidence)對真實概率分布進行估計的準確性。

大語言模型的校準度評估是十分有意義的。首先,有助于提高模型的可靠性。在一定程度上,校準度越高,模型的預測結果就越可靠。如果一個大語言模型的校準度低,它的預測結果就更有可能會導致誤解和錯誤的決策。其次,有助于改善置信度估計。在實際的應用場景里,大語言模型的使用通常會伴隨著對預測結果的置信度估計。如果模型的校準度很高,置信度估計一般也會更加準確。這樣,校準度可以更好地幫助使用者理解模型的預測結果并在必要的時候(例如當模型對預測結果的置信度很低時)進行人工介入。

下面介紹一種常見的校準度評估方法,即期望校準誤差(Expected Calibration Error,ECE)[57-58]。ECE表示模型認為輸出正確的概率與模型輸出實際上正確的概率之差的絕對值期望。這里介紹一種有限數據情況下的ECE計算方法。

(1)

(2)

(3)

其中,n表示樣例的總數目。

2.3 泛化能力

模型泛化能力的評估重點集中于模型在與訓練集數據分布不同的域外數據集上的表現。一般來說,泛化能力的評估是在小樣本(few-shot)或零樣本(zero-shot)設置下進行的[31]。

小樣本是指模型在預測時,僅給模型少量的樣例作為模型推理的參考。在這個過程中,模型的參數通常不作更新。典型的小樣本法是給出k個由問題、文本和對應的答案作為相關任務的實例,然后再給出一個真正需要解答的問題和文本,希望模型參照所給的樣例輸出合理的答案。當前廣受關注的上下文學習(In-Context Learning)就屬于這種情況。

零樣本與小樣本類似,不同在于零樣本不提供參考樣例,只給模型提供需要解答的問題和對應的文本,由模型直接推理出答案。這種方法在應用場景下變得更加簡單,但同時也存在一些問題,比如,有時零樣本設置可能會導致不清晰的任務定義,從而影響模型的表現[31]。

由于小樣本和零樣本通常在下游任務上不對模型參數進行更新,所以這種評估方式能夠較好地體現模型的泛化能力。泛化能力也在一定程度上預示著模型應用于下游任務時的效果。因此,泛化能力的評估是評估大語言模型能否廣泛應用于諸多實際下游應用場景的關鍵之一,也將成為未來大型模型評估的一個重要組成部分。

2.4 適配能力

目前的大模型普遍強調通用性。雖然通過小樣本或零樣本可以增強通用模型在具體任務上的能力,但比起在特定任務上經過訓練的模型,在該任務上不一定具有優勢。因此,需要考慮大模型在下游具體任務上的適配(adaptation)問題。適配是指將原始模型轉換成一個適用于下游具體任務的過程;模型的適配能力則是指面對不同的適配策略,模型在具體任務上的性能優劣。適配策略分為三種類型: 不更新原模型參數的適配[59]、增加適配層并調整適配層參數的適配[60],以及對原模型做全參數更新的適配。

在不更新模型參數的適配中,最典型的方法就是通過設計提示(Prompt)和上下文例子(In-Context example)使模型在下游任務上獲得更好的效果。提示的作用是提醒模型補充“答案”,這種方式類似于預訓練模型時對掩碼(Mask)部分的預測或后續內容的生成。以這種方式進行推理與模型預訓練的方式一致,減少了推理和訓練時形式上的鴻溝(Gap)。但如何選擇合適的提示形式非常重要。大量的研究表明,提示形式的輕微變化會導致模型輸出結果的明顯不同。

增加適配層并調整適配層參數的適配是一類高效率、低損耗的適配方法。這類方法的目標是在保證模型性能的情況下,盡量減少優化迭代的次數,甚至不更新原模型的參數。例如,Houlsby等人[61]在原有的模型架構上添加只含有少量參數的適配層,即在適配下游任務時,固定原模型本身的參數,而只基于梯度更新適配層的參數,從而縮小更新參數的規模,這也使得原始模型的參數在不同任務中可以共享而不發生變化。

一種極端的適配方式是更新模型的全部參數。具體而言,就是利用下游任務中的數據對模型進行再訓練,從而迭代更新整個模型的參數。這種調優方法在之前的模型(如BERT)規模不足夠大時經常使用。但隨著模型規模越來越大,重新迭代更新模型所有參數的成本也越來越高,這種方法的實用性也逐漸降低。

需要說明的是,模型對不同適配策略的適配程度與模型的結構設計、預訓練方式等因素有關。同一個模型在不同的適配策略下的表現也可能十分不同。從這個角度看,評估模型的適配能力的主要任務之一是在特定類別的任務下研究最適合該模型的適配策略,并探索模型在不同適配策略下產生性能差異的原因。

2.5 魯棒性

雖然大語言模型在很多任務上的性能越來越出色,甚至在一些數據集上超越了人類的表現,但如果數據受到輕微的擾動,仍有可能會導致模型性能的大幅下降。特別是,當現實世界比較復雜時,模型的表現可能并不突出[62-65],這便是模型的魯棒性不強。魯棒性用于衡量模型對于輸入數據中的擾動或者噪聲的抵抗能力。目前,模型魯棒性的評估方法之一是對文本輸入進行擾動,然后觀察模型輸出的變化。這些擾動大致可以分為兩類: 對抗擾動(Adversarial Perturbations)[66-69]和非對抗擾動(Non-adversarial Perturbations)[70]。

對抗擾動是指為了誤導模型做出錯誤的預測而故意對輸入內容進行修改。盡管這些擾動不會引起人的判斷變化,但它們對模型的預測結果會產生明顯影響。相比之下,非對抗擾動則是對輸入內容更自然和隨機的改動。這類擾動并不是刻意用來使模型出錯的,而是用于模擬現實世界中輸入的復雜情況。

對抗擾動可以用來評估模型對惡意輸入的處理能力,而非對抗擾動,可用于衡量模型在現實世界中面對有自然誤差的輸入時的表現。在評估大語言模型時,需要綜合考慮這兩種擾動類型的影響,以更全面地評估模型的魯棒性。

2.6 效率

對于大語言模型而言,效率是一個重要的維度。效率可以分為訓練效率和推理效率兩個方面。訓練效率指模型在訓練時的復雜程度,而推理效率則是指模型在不更新參數的情況下的推理復雜度。

針對模型效率的評估指標有多種,如訓練時的能量消耗和二氧化碳排放量[71-72]、參數個數[73-74]、FLOPS(運行給定實例模型所需的操作數)[74-77]、實際推理時間[78-79]、執行層數(模型實際推理時輸入經過的總層數)[80-81]等。對這些指標的評估可以幫助研究人員選擇最合適的模型來滿足具體的應用需求。

2.7 偏見和刻板印象

大語言模型通常會應用于多種不同的下游任務,而其中潛在的偏見和刻板印象可能會使它在下游任務中表現出歧視行為[72],從而限制其在一些領域的應用。

與代表型損害(Representational Harm)[82]對應,本文中的大語言模型偏見和刻板印象指的是針對某個群體和某類屬性標簽產生的過于籠統且不合事實的概括性觀點[83-84],例如,認為男性天生更擅長數學。目前,評估模型中的偏見和刻板印象的方法主要分為兩類: 基于表示端的評估方法和基于生成端的評估方法。

基于表示端的評估方法主要利用詞向量在語義向量空間中的幾何關系表征詞匯間的關聯程度,從而反映語言模型中的偏見和刻板印象[82,85-89]。其中,上下文嵌入關聯測試(Contextualized Embedding Association Test,CEAT)[89]通過待測群體詞向量與兩組屬性標簽詞向量間的相似度差距來表征待測群體偏向某類屬性標簽的程度,即刻板印象的程度。以種族偏見為例,兩組屬性標簽分別為“友好、勤勞、有才華”和“冷漠、懶惰、無能”。CEAT首先計算待測群體詞向量與兩類屬性標簽詞向量的余弦相似度,然后計算這兩組相似度的差值,之后再通過統計方法計算效應量(Effect Size)來量化上述差值。效應量的符號代表了偏見的方向(正向偏見或負向偏見),而效應量的絕對值表示偏見程度的大小。然而,由于基于詞向量,這類評估方法通常并不能很好地適用于閉源大語言模型。

基于生成端的評估方法側重于利用模型的生成來衡量其偏見程度[49,84,90-95]。常見做法包括: ①利用模型生成內容的統計信息。例如,計算生成內容中不同群體和屬性標簽的共現頻率來反映不同群體與該屬性標簽的關聯程度[49,96]。②利用模型生成過程中給出的概率分數進行估計[84,91,98]。例如,自診斷方法(self-diagnosis)[91]通過設計模板來詢問模型生成內容中是否包含偏見成分,并利用模型輸出補全時的概率分數估計偏見程度。

上述評測方法通常需要依賴人工篩選的詞表集合來代表某個待測群體或某類屬性標簽。但是研究表明,這些由人工篩選的詞表本身可能會引入篩選者的固有偏見[98];此外,詞表中的詞匯組成也會對評測結果產生較大的影響[99]。目前,NLP社區對于偏見的評估仍然存在一些問題,例如偏見的界定標準模糊不清[100-101],某些評估方式與模型在下游應用上表現的相關性并不明確[90,102-104],除性別、種族外對其他形式的偏見(如宗教、國家等)研究較少,非英語語境下的偏見評估尚缺乏相關研究等。未來,大語言模型研發者需明確模型的預期使用場景,最小化模型在不適合的場景中的應用,并提高模型透明度[105]以減輕偏見在大語言模型實際使用時可能造成的社會危害。

2.8 公平性

隨著大語言模型在下游任務中的準確率不斷提高,模型的公平性問題也逐漸受到關注。與分配型損害(allocational harm)[82]對應,公平性更多關注模型在特定下游任務中針對不同特征群體的性能差距[82,102,106-108]。相對而言,偏見和刻板印象是指大語言模型內部的某種固有屬性(intrinsic biases[72],內在偏見);而公平性則關注實際任務中模型在特征群體間的表現差距(extrinsic harms[72],外在傷害,通常反映為不同群體間準確率的差距)。例如,機器翻譯中某些語言的翻譯質量明顯低于其他語言;語音識別系統在識別非洲裔美國方言時可能會有更低的準確率[108]。目前,模型公平性評估可以分為三類: 預測公平性(Predictive Parity)[109]、機會平等性(Equality of Opportunity)[110]和反事實公平性(Counterfactual Fairness)[111]。

(4)

而Lum等人[113]則計算樣本方差來估計模型的公平性,如式(5)所示。

(5)

上述評估方法通常依賴數據集對子群體信息的預先標注,因此在無預先標注的數據集上通常難以發揮很大的作用[49]。

反事實公平性評估通過對測試樣例進行擾動生成反事實數據[114],然后評估模型基于反事實數據的性能[115-116]。與魯棒性評估類似,其難度主要在于選擇擾動時機和擾動位置[49,117-118]。

隨著大語言模型的不斷發展,其能力范圍和應用形式可能從單語言、單模態逐漸轉向多語言、多模態。因此,現有的基于單語言(主要為英語)、單模態、數據標注依賴的公平性評測范式需要進一步迭代,以適應未來更廣泛的群體特征及更復雜交融的語言背景[107]。

2.9 有害性

大語言模型的有害性是指模型產生有害言論的能力。當大語言模型部署于社交媒體或互聯網時,這種模型產生的有害言論很容易造成不良的社會影響。目前,對大語言模型的有害性評估方法之一是使用有害性檢測系統檢測文本中可能含有的有害成分(包括大語言模型生成內容中的有害成分)。具有代表性的系統包括HateBERT[119]和Perspective API[120]等。

當前,有害言論的定義并沒有統一標準,不同群體可能會有不同的理解。因此,開發有害性檢測系統時,研發者需要謹慎地考慮多方面的問題,包括系統設計的合理性、數據集標注的準確性和是否存在偏見等。同時,研發有害性檢測系統的一個主要挑戰是在準確率和公平性之間取得平衡,避免對某些群體的過度懲罰或忽視對他們的有害言論。在這個意義上,研發者應提高系統及其數據的開源性和透明度,以便對系統進行全面評估。這種對檢測系統本身的全面評估將有助于提高系統的可信度和有效性,進一步增強有害性評測的準確度和公平性。

3 大語言模型評測的一些新方向

自ChatGPT推出以來,生成式大語言模型影響越來越大,與此同時,傳統的生成式評測方法又面臨巨大的挑戰。研究者們開始探索新的評測模式。在這一過程中,涌現出了一些有影響的研究,例如基于模型的評測、幻覺問題的評測和元評測(對評測指標本身進行評估)。這些研究進一步彌補了傳統評測的不足,并為評價模型性能(尤其是模型在自然語言生成任務上的性能)提供了更加精準、穩定和可靠的評估結果。下面介紹這三個研究方向以及相應的研究進展。

3.1 基于模型的評測

為了討論方便,本文將任務中的原文(Source)稱為原文本,將任務模型的輸出(Hypothesis)稱為待測文本,將參考答案文本(Reference)稱為參考文本。在自然語言生成領域,早期的自動化評測方法如BLEU和ROUGE主要基于“形式匹配”。這些方法雖然在某種程度上取得了一定的效果,但同樣也存在以下不足: ①對語義的忽視。在許多情況下,生成文本可能使用不同的詞匯或短語來表達相同的語義。但是這些方法主要關注詞匯表層的形式匹配,容易忽略語義的重要性,導致評測結果不能完全真實地反映模型性能。②對參考文本的依賴。由于需要參考文本作為對照,這些評測方法的評測結果往往受參考文本質量的影響。此外,這些評測指標通常假設存在一個或幾個“最優”的參考文本,這在許多NLG任務中并不成立。例如,在開放式對話等任務中,可能存在多種合理但完全不同的生成結果。這種假設限制了這些評測指標在評估生成多樣性和創新性方面的能力。③難以抓住不同任務間的細微差別及各個任務上的評測需求。例如,摘要和對話生成這兩種任務在語義連貫性、文本多樣性和創新性等方面的評測需求可能大相徑庭,但是這些差異往往很難被這些只關注表層的精確匹配的自動化評測方法捕捉。

上述局限性使得先前的自動評估指標通常難以準確地評估大語言模型的性能和表現。為了克服這些局限性,研究者開始探索基于模型的評測方法,尤其是基于大語言模型的評測方法。這類方法使用預先構建的評估模型對任務模型進行評測。相比早期的傳統評測方法,這些評測模型具有更加強大的表示學習能力和語義理解能力,其中的一些方法也不需要依賴參考文本,并能更好地捕捉到不同生成任務之間的細微差別,與人類評測之間也往往有更好的相關性,為評估大語言模型在自然語言生成任務中的表現提供了更為準確和全面的評價標準?;谀P偷脑u測方法有很多,例如,BERTr[122]、BERTScore[123]、MoverScore[124]、BERT for MTE[125]、COMET[126]、BLEURT[127]、RoBERTa-eval[128]、BARTScore[129]、MAUVE[130]、DiscoScore[131]和基于大語言模型的評測[132-135]等。下面將重點介紹幾種有代表性的基于模型的評測方法,分別是依賴參考文本,基于BERT的BERTScore、BERT for MTE與不依賴參考文本,基于大語言模型的GPTScore[132]、Kocmi &Federmann[133]以及PandaLM[135]。

3.1.1 BERTScore

BERTScore是一種基于BERT的評測方法,計算結構如圖2所示。其核心思想是利用BERT的詞嵌入來計算待測文本中的每個token與參考文本中的每個token的余弦相似度。它首先利用BERT的詞嵌入來得到參考文本和待測文本的編碼向量,分別記為(r1,r2,…,rn)和(p1,p2,…,pm),然后通過待測文本中每個token與參考文本中每個token的余弦相似度來計算精確度與召回率,具體如下:

圖2 BERTScore的計算結構

然后根據精確度和召回率來計算F1值,如式(8)所示。

(8)

BERTScore即取式(8)計算得到的F1值。

3.1.2 BERT for MTE

另一種基于BERT的評測方法是BERT for MTE,該方法通過句子對編碼的方式同時編碼待測文本和參考文本,并使用基于MLP的回歸模型得到最后的指標分數。記參考文本和待測文本的單詞序列分別為r和p,BERT for MTE首先利用BERT進行句子對編碼,如式(9)所示。

v=BERT([CLS];p;[SEP];r;[SEP])

(9)

之后再將句子對的嵌入表示送入多層感知機(Multilayer Perceptron, MLP)回歸模型中得到最后的指標分數,如式(10)所示。

Score=MLP(vCLS)

(10)

式(10)計算得到的分數即為最終指標值。

3.1.3 GPTScore

GPTScore是一種基于大語言模型的評測方法。其核心在于給定指令和原文本后,經過預訓練的大語言模型會對更高質量的生成內容賦予更大的生成概率。具體來說,給定一個生成任務指令d(如“請為以下文本生成一個摘要”),該任務關注的評估角度a(如流暢度)以及上下文信息S(可以是原文本或參考文本),GPTScore首先將三者通過提示模板的方式組織成輸入文本,然后將GPTScore定義為大語言模型生成待測文本p的加權對數概率和,如式(11)所示。

(11)

其中,T(·)是提示模板,用于組織評估的實例,它通常任務相關,并通過提示工程人工構造。

3.1.4 Kocmi &Federmann

與GPTScore類似,Kocmi &Federmann嘗試利用大語言模型來對其他的模型進行評估。與GPTScore依靠大語言模型給出的概率計算得分不同,Kocmi &Federmann嘗試以一種更加擬人化的形式利用大語言模型進行生成任務上的評估。具體來說,Kocmi &Federmann利用提示工程將指令d(如“請評估下面句子的翻譯流暢度”)、上下文信息S(可以是原文本或參考文本,如,需要翻譯的原文本)和待測文本(如某個任務模型輸出的翻譯文本)組織成與人類評估相近的模板形式作為預訓練大語言模型的輸入,然后讓大語言模型直接輸出對應的評分,并將這個評分作為該任務的指標分數。

3.1.5 PandaLM

與GPTScore和Kocmi &Federmann對單個模型的生成內容給出一個絕對的評價不同,PandaLM是一種基于比較的評測模型。PandaLM由LLaMA-7B[136]調優得到,專注于在指令調優的語境下根據生成內容在各種候選任務模型中選出最優秀的模型。如圖3所示,PandaLM接收一個任務的描述,包括指令和與任務相關的輸入,再同時接收兩個任務模型在這個任務描述下的生成內容,最后給出對哪個任務模型的生成內容更好的評判,并給出評判的原因。

圖3 PandaLM的評測結構圖

由于PandaLM評測方法基于不同模型之間的比較,在一定程度上擺脫了對參考文本的依賴。同時,利用大語言模型的泛化能力,PandaLM超越了傳統評估方法主要針對客觀正確性的限制,能夠通過對指令的設計更好地抓住不同生成任務上對評測需求的微妙差異,如簡潔性、清晰度、全面性、正式性等。此外,PandaLM還可以同時識別和糾正任務模型生成內容中可能存在的邏輯謬誤、冗余、語法不準確和上下文不相關等問題,具有較好的魯棒性。相較于先前的傳統自動化評測方法,基于模型的評測方法,特別是基于大語言模型的評測方法,在無參考文本的自然語言生成任務的評估上具有巨大潛力[121]。

下面列出了一些未來可能的基于模型評測的研究方向:

(1) 更具魯棒性的指標。隨著現有模型魯棒性的不斷提高,研究者可以開發更具魯棒性的基于模型的評測指標,以降低噪聲對評測結果的影響,從而提高評測結果的穩定性和可靠性。

(2) 更可靠的評測方法。雖然大語言模型廣泛用于評估生成文本的質量,并展現出了較好的效果[132-135],但研究表明,基于大語言模型的評測方法同樣存在不公平、不可靠的問題[35,121],例如順序偏見(大語言模型對不同的位置有特定的偏好)和冗長偏見(大語言模型傾向于偏愛更加冗長的回答,即使這些回答不如更短的回答清晰或準確)等。因此,未來的研究可以進一步發展更加可靠的基于模型的評測方法,增強評測結果的可信度。

(3) 知識增強的評測方法。大語言模型在一般場景下可以保持較好的泛化性,但在需要特定知識的專業領域可能表現不佳?;诖笳Z言模型的評測方法也類似: 盡管大語言模型在廣泛的訓練數據上進行了訓練,但由于缺乏某些專業知識,它可能仍然無法在專業性較強的領域做出合理準確的評價。然而,如何構建知識增強的大語言模型仍然是一個開放的研究問題[121]: 一種方法是將特定領域的數據納入大語言模型的訓練語料中,以便它能夠更好地理解和應用該領域的知識;另一種方法是結合外部知識庫或專家系統,將其與大語言模型聯合使用,以獲取該領域專業性的評估能力。未來的研究可以探索將特定知識注入到大語言模型中的方法,從而提高基于大語言模型的評測方法在某些專業領域的表現。

(4) 細粒度評估與可解釋性增強。過去的許多基于模型的評測方法通常關注生成文本的整體質量,較少關注生成內容中更細維度的質量水平[137],例如充分性、冗余度、忠實度和趣味性等。由于缺少各個細粒度方面的評價分析,導致在一定程度上缺乏可解釋性。未來基于模型的評測研究可以關注評測模型在生成內容的更細粒度劃分上的評估方式及可解釋性。

(5) 擺脫對參考文本的依賴。自然語言生成任務的評測方法通??梢苑譃閮深? 需要參考文本的評測方法和不需要參考文本的評測方法。由于大多數生成式任務具有不確定性和開放性,任務答案往往多樣且難以枚舉,參考文本通常有限,這就導致需要參考文本的評測方法難以捕捉生成內容的多樣性,影響評測結果的準確性。相比之下,無參考文本的評測方法無須枚舉可能的答案,在實現對生成內容的多角度、多方面及定制化的評估上有著巨大潛力。未來研究可進一步探索如何利用大語言模型的零樣本或小樣本泛化能力來擺脫生成式任務評測中對參考文本的依賴,從而獲得更易泛化和遷移的評測方法、評測指標和更準確的評測結果。

(6) 人機協作評測。在自然語言生成評測中,人類評測通常被認為是最重要、最準確的評測方法之一。但由于人類評測的時間和資源消耗較大,在模型研發階段,研究者往往難以利用人類評測實時監測任務模型的能力變化。利用基于模型的評測作為輔助,尤其是基于大語言模型的評測,可以在一定程度上緩解純人類評測中存在的上述問題。未來研究可嘗試提出結合基于模型評測和人類評測的有效方式,從而提高人類評測的可用性和基于模型評測的準確性。

3.2 幻覺問題的評測

隨著生成式大語言模型的發展和應用日益廣泛,其產生的文本在質量和流暢性上已經達到了十分可觀的水平。但模型在生成內容時也可能會產生一種被稱為“幻覺”的現象,即生成的文本包含不準確或無根據的信息。這種現象會對模型的實用性和可靠性產生較大的負面影響。因此,越來越多的研究開始集中于幻覺評測。

幻覺是指自然語言生成模型產生的內容不忠實于原文本或不符合現實世界的現象。根據能否通過原文本直接進行驗證,幻覺可以分為兩類[129]: 內在幻覺(Intrinsic Hallucinations)和外在幻覺(Extrinsic Hallucinations)。內在幻覺是指能夠直接通過原文本證偽的幻覺現象。以文本摘要任務為例,原文本中包含“蘋果公司今天發布了新的iPhone,具有更強大的處理器和攝像頭”,而待測文本中包含“蘋果公司今天發布了新的iPad,具有更強大的處理能力和改進的攝像頭”,這就是一個內在幻覺的例子。因為待測文本與原文本中的信息直接相矛盾(一者是 iPhone,一者是 iPad)。外在幻覺是指不能夠直接通過原文本得到驗證的幻覺現象。同樣考慮上述的摘要任務,如果待測文本包含“蘋果公司今天發布了新的iPhone,它將在全球范圍內同步推出”,這就是一個外在幻覺的例子。因為待測文本中存在無法從原文本直接得到驗證的內容(iPhone將在全球范圍內同步推出)。在原文本中并沒有提到產品的發布范圍,因此待測文本中的這部分內容既不能由原文本直接支撐,也不能被原文本直接證偽。

為了評估幻覺現象,研究者們提出了多種方法,總體上可以分為非大語言模型的方法[138-139]與基于大語言模型的方法兩類。非大語言模型的方法包括基于統計的方法、基于信息抽取的方法、基于生成式問答的方法和基于句子級別分類的方法等。下面重點介紹基于大語言模型的方法。

基于大語言模型方法的核心思想是利用大語言模型的理解和生成能力來評估待測文本的幻覺度。其方法可以分為直接評測方法和間接評測方法。直接評測方法通常將大語言模型作為人的代理,通過模板設計,使其完成一般人類評測員需要完成的工作,即直接評價或直接判斷。例如,Sun等人[140]采用自驗證的策略,將任務描述、原文本與大語言模型生成的待測文本再次輸入大語言模型本身,讓其自身對生成的待測文本進行幻覺的檢測與幻覺的消除;Mündler等人[141]通過設計模板,使大語言模型能夠在給定原文本的情況下,像人類一樣直接判斷兩個和原文本有關的陳述是否互相矛盾。HaluEval[41]結合大語言模型生成和人工標注,創建了一個包含大規?;糜X樣例的評測基準以衡量大語言模型檢測幻覺和歸因幻覺類型的能力。這種評測方法的優勢在于能夠直接利用大語言模型的泛化能力進行幻覺評測,無須其他額外的計算過程。間接評測方法則是借助大語言模型的生成能力,并結合其他現有的評測指標和方法綜合得到最后的幻覺評測結果。例如,給定任務描述、原文本和待測文本,SelfCheckGPT[142]首先將相同的任務描述和原文本輸入到一個大語言模型中,并多次隨機采樣這個大語言模型的輸出,得到一組生成文本。如果待測文本中不存在幻覺,那么這組生成文本的內容應當相似,并與待測文本的內容較為一致;反之,這組文本的內容則很可能會發散并與待測文本的內容相互矛盾。因此,給定待測文本和一組生成文本時,可以利用現有的相關指標和方法來表征待測文本和這組生成文本之間的一致性,并將這些指標值綜合起來以衡量待測文本的幻覺程度。具體而言,SelfCheckGPT使用了BERTScore、生成式問答與n-gram模型的預測概率三種指標或方法來衡量待測文本和生成文本集合之間的一致性,并通過加和的方式得到最終衡量幻覺度的指標值。這種間接評測方法的主要優勢在于其能夠結合大語言模型的生成能力與現有的評測指標與評測方法的優點,得到一個較為綜合的度量指標。在幻覺評測中充分利用大語言模型的理解和生成能力,能夠在一定程度上幫助處理較為復雜的語義關系,從而評測較為復雜的幻覺現象,如邏輯錯誤、事實錯誤及多種錯誤的耦合等。同時,這種方法一般無須大量的人工標注數據,并可以提供有關幻覺現象的更詳細的信息(例如程度信息)。然而,這種方法的局限性在于用于評測的大語言模型本身也同樣可能產生幻覺現象。如何控制用于評測的大語言模型本身可能產生的幻覺,將是一項新的挑戰性問題。

幻覺評測在未來可能的研究方向有:

(1) 更有效的幻覺檢測方法。當前的幻覺檢測方法在處理較為復雜和模糊的語義時可能會遇到困難。未來的研究可以探索更復雜的模型設計和檢測算法以提高幻覺檢測的準確性和效率,也可以探索如何利用無標簽數據或弱標簽數據來提高幻覺評測的性能。

(2) 幻覺生成機制的研究?;糜X的全面評測能夠幫助研究者進行更深入的有關幻覺生成機制的研究,幻覺生成機制的研究反過來也有助于發展更為全面、更具針對性的幻覺評測方法。若要理解模型為何會產生幻覺,需要深入研究模型的內部工作機制。這可能涉及研究模型的語言理解和生成過程。例如,模型是如何理解并處理語義和語法的,以及這個過程中哪些因素可能會導致幻覺的產生。此外,也可能涉及研究模型的訓練過程。例如,模型是如何從訓練數據中學習的,訓練過程中哪些因素可能導致模型學習到錯誤的或誤導性的信息,從而導致幻覺的產生。

(3) 通用的幻覺評測方法設計。在自然語言生成中,不同任務的輸入輸出形式多樣,設計一個與任務無關的通用幻覺評測方法非常重要。這需要深入理解幻覺的本質,以及不同任務中幻覺的共性和特性。同時,不同任務對幻覺的容忍度也不同。在數據到文本生成的任務中,忠實于原文本與事實性正確是兩個十分重要的評價方面,對幻覺的容忍度非常低;而故事生成任務對幻覺的容忍度就相對較高,因為在故事生成中往往更加關注例如有趣程度等其他方面。如何設計一個能夠捕捉不同任務之間的細微差別,并在各個任務下的評測結果都與人類判斷相關性較強的幻覺評測指標,也是目前幻覺評測中的一個挑戰。

3.3 元評測

在大語言模型的評測中,元評測是一個不可或缺的部分。元評測是一種衡量評測指標本身有效性和可靠性的過程,也就是對評測的再評測。其核心目標是判斷評測方法與人類的評測的相關程度,這對于確保評測質量、減少誤差以及提升評測結果可信度具有重要意義。隨著大型語言模型在各領域的應用日益廣泛,評測大語言模型的方法本身的準確性和可信度也逐漸成為關注焦點。通過對比不同的評測方法,研究者能夠發現各種方法的優勢和局限性,這將有助于研究者選擇更適用于特定任務和場景的評測方法,從而更準確地衡量模型的性能。在下面的討論中,本文將某個評測指標對模型的n個生成內容給出的分數,分別記為x1,…,xn,并將人類評測對這n個生成內容賦予的分數分別記為y1,…,yn。下面將介紹幾種元評測中常見的相關性計算方法。

3.3.1 皮爾遜相關系數

皮爾遜相關系數(Pearson Correlation Coefficient)是衡量兩個變量之間線性關系強度的指標。給定模型n個生成內容上的評測指標分數與人類評測分數的數據點對(x1,y1),…,(xn,yn),皮爾遜相關系數的計算,如式(12)所示。

(12)

值得指出的是,皮爾遜相關系數衡量的是兩個變量之間的線性關系的強弱。其在兩個變量之間存在比較強的線性相關時能夠表現出較好的性能。同時,它對非線性關系的敏感度較低,并且受異常值的影響較大,數據分布的偏態可能導致相關系數的失真。因此,皮爾遜相關系數不適用于變量之間存在復雜的非線性關系或數據中存在嚴重異常值或偏態的情況。

3.3.2 斯皮爾曼相關系數

斯皮爾曼相關系數(Spearman's Correlation Coefficient)用于衡量兩個變量之間的單調關系,它是基于變量的秩次(相對大小關系)計算得出的。給定模型n個生成內容上的評測指標分數與人類評測分數的數據點對(x1,y1),…,(xn,yn)以及它們對應的秩次(rx1,ry1),…,(rxn,ryn),斯皮爾曼相關系數的計算如式(13)所示。

(13)

斯皮爾曼相關系數基于數據的秩次計算,從而對異常值和偏態數據較為魯棒,并且可以在一定程度上捕捉非線性的關系。但是其只能反映兩個變量間的單調關系,當變量之間存在多種依賴關系時,只靠斯皮爾曼相關系數可能難以區分。

3.3.3 肯德爾τ系數

肯德爾τ系數(Kendall’sτCoefficient)是另一種基于數據秩次的系數,用于衡量兩個變量之間的共同趨勢。給定模型n個生成內容上的評測指標分數與人類評測分數的數據點對(x1,y1),…,(xn,yn),肯德爾τ系數的計算方法如下: ①計算配對。對于每一對分數對(xi,yi)和(xj,yj),計算它們的差值xi-xj和yi-yj。②計算一致對(concordant pair)的數目和不一致對(discordant pair)的數目,分別記為C和D。具體來說,若(xi-xj)(yi-yj)>0,則記為一個一致對,若(xi-xj)(yi-yj)<0,則記為一個不一致對。③計算相關系數??系聽枽酉禂档挠嬎闳缡?14)所示。

(14)

與斯皮爾曼相關系數類似,肯德爾τ系數是基于數據的秩次,因此對異常值和偏態數據較為魯棒。但是肯德爾τ系數的計算需要枚舉每一對數據點對,因此在小樣本數據中表現較好,面對大樣本數據時計算效率較低。

元評測的實例眾多,例如,Sai等人[143]在摘要、對話、問題生成等多個任務上對包括正確性、流利度、相關性、有趣程度在內的多個評估維度彼此之間的相關程度進行了評估,結果表明即使在同一個任務上,人類在不同評估維度上的評分的相關性往往也并不顯著。因此,在這種情況下,僅由自動化評估指標對生成內容賦予一個單一的總分很難全面地評估生成內容在各個細粒度評估維度上的質量。同時,他們還基于擾動方法評估了包括BLEU、METEOR、BERTScore、BLEURT、MoverScore在內的多個評測指標的魯棒性。具體而言,他們通過計算擾動前后評測指標給出的分數差異與人類判斷給出的分數差異是否一致來衡量評測指標的魯棒性。結果顯示,相比早期的自動化評測指標,雖然基于模型的評測指標(例如,BERTScore, BLEURT和MoverScore等)在與人類判斷的相關程度上表現較好,但是它們面對非常簡單的擾動時也無法保持較強的魯棒性。此外,結果還顯示,現有的評測指標往往難以捕捉特定任務上的特殊評測需求。例如,在對話任務中,許多任務模型傾向于生成通用且缺乏針對性的回復,導致與用戶的互動效果不佳。然而,在實驗中沒有一個評測指標對產生諸如“好的”或“你能再重復一遍嗎?”等通用回復的擾動具有敏感性。

未來,元評測的研究方向可能包括:

(1) 更細粒度的元評測。不同的自然語言生成任務通常有各自特定的評測需求,即使在同一任務下,也存在多種不同的評估維度,例如連貫性、正確性和相關度等。因此,未來的元評測需要在更細粒度上進行,以評估各評測指標在這些細粒度評估維度上的評測結果與人類判斷的相關性,揭示評測指標在捕捉不同生成任務上的微妙差異的能力,為評估方法本身的改進提供指導。

(2) 針對評測指標公平性評估的元評測?,F有的評測指標和評測方法通常涉及人類評測與基于模型的評測。其中,人類評測可能受到評測員的專業背景、文化差異等因素的影響;而由于數據的稀缺性,基于模型的評測方法可能面臨著在低資源語言上表現更差的問題。元評測需要探究這些因素對評測指標性能的影響,研究評測指標捕捉模型對不同群體或語言的偏見和歧視的能力。這將有助于提高評測方法的公平性,推動更公平、包容的自然語言處理技術的發展。

(3) 針對評測指標魯棒性評估的元評測。通過基于擾動的方法研究評測指標的魯棒性,可以揭示其在面對數據噪聲、變化或對抗性樣本時的穩定性。這種魯棒性元評測有助于提高評測方法的可靠性,為自然語言處理研究和實踐提供更穩健的評估手段。

4 結論

大語言模型評測對大語言模型的應用以及后續發展有非常重要的作用。大語言模型的評測范式分為經典評測范式和新型評測范式。經典評測范式中的傳統自然語言處理任務按照內含任務的特點劃分為自然語言理解任務和自然語言生成任務,本文分別介紹了這些任務當前所流行的經典評測基準以及一些新型評測范式下代表性的評測基準和大語言模型評測方面的實例;總結了現有評測中的一些不足之處;然后介紹了全面的大語言模型評測思想以及相關的評測指標和評測方法;最后總結了大語言模型評測的一些新的研究問題、挑戰以及未來的研究方向。

猜你喜歡
幻覺評測基準
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
真實的幻覺
當代藝術家處于自以為是的幻覺中
遠方
攻坡新利器,TOKEN VENTOUS評測
Canyon Ultimate CF SLX 8.0 DI2評測
明基準講方法??待R
滑落還是攀爬
春天的幻覺
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合