InstructGPT在命名實體識別任務中的表現和挑戰

2024-03-26 02:39邱錫鵬牟小峰黃萱菁

中文信息學報 2024年1期

孫瑜,顏航,邱錫鵬,王定,牟小峰,黃萱菁

(1.復旦大學計算機科學技術學院,上海 200433;2. 美的集團AI創新中心,廣東佛山 528311)

0 引言

大規模語言模型(Large Language Models, LLMs),如GPT-3系列[1-3],由于其不依賴下游數據微調即可取得較好的性能表現[4-5],在自然語言處理(Natural Language Processing, NLP)社區引起了熱烈討論。具體而言,大規模語言模型只需要使用適當的提示(Prompt),就可以在零樣本(Zero-shot)設定下取得不錯的性能[4,6];對于少樣本(few-shot)問題,大規模語言模型可以利用上下文學習(In-context Learning, ICL)[1,7]或者思維鏈(Chain-of-Thought, COT)[8]提示來提高性能。

盡管過去的文獻[1,5]已經證明了大規模語言模型在自由生成任務和多項選擇任務中表現十分出色,但他們在結構化抽取任務,如命名實體識別(Named Entity Recognition, NER)中仍然面臨挑戰[9]。目前,沒有工作對大規模語言模型在命名實體識別上的能力進行全面的研究,因此,本文設計了一系列實驗,深入研究了InstructGPT在命名實體識別任務上的表現及面臨的挑戰。具體地,本文主要回答了下面兩個問題:

(1) InstructGPT在不同設定和不同領域上表現得怎么樣?為了回答這個問題,本文分別在生物醫學領域和通用領域上,進行了零樣本學習和少樣本學習。其中,通用領域在中英文的常規數據集和英文的嵌套數據集上都進行了實驗。為了增加可信度,本文沿用了之前工作[5]中采用的提示作為基準來解決零樣本的命名實體識別任務。除此之外,由于抽取實體本質上是結構化抽取任務,模型的輸出需要滿足一定的格式才能從中成功地解析出實體。為了實現這個要求,本文設計了一個結構化提示,從而指導InstructGPT生成格式化的文本。零樣本場景下兩種提示的例子如圖1所示。在少樣本設定下,本文探索了上下文學習和思維鏈兩種方法。上下文學習時,本文沿用了之前廣泛使用的提示方法[9]。目前的思維鏈方法主要在推理任務中使用,本文是第一個將該方法引入到命名實體識別任務中的。少樣本場景下的兩種提示的例子如圖2所示。結果顯示,InstructGPT無論在生物醫學領域還是通用領域的數據上的表現,都和微調模型的表現有巨大的差距。其中,在零樣本命名實體識別任務上,InstructGPT僅能達到微調模型性能的11%到56%,在少樣本命名實體識別上,InstructGPT的性能最多達到72%。

圖2 少樣本命名實體識別提示的例子

(2) 為什么InstructGPT在命名實體識別任務上表現得不理想?InstructGPT在很多生成式的任務上的表現與微調模型性能相近,甚至更好。然而,InstructGPT卻在命名實體識別上沒有達到預期效果。為了探究阻礙InstructGPT成功抽取實體的原因,本文從兩個方面來仔細評估了模型的輸出: 無效生成和虛假預測。無效生成包括輸出無法成功匹配解析格式的“格式無效”,和輸出的實體片段不在輸入句子中的“片段無效”。結果表明,10%～70%的輸出句子存在無效生成的問題,嚴重影響了解析過程。零樣本場景給出更詳細的指令或者少樣本場景增加示例的個數可以有效減少“格式無效”。然而,“片段無效”仍是一個亟需解決的問題。此外,無效性可能會直接導致生成的句子解析失敗,從而不能識別預測成功的實體。本文稱這種情況為虛假預測。虛假預測除了存在導致性能偏低的“虛假錯誤預測”,還存在導致性能偏高的“虛假正確預測”。當無效性問題嚴重時,“虛假正確預測”的數量甚至增加到40%。未來的工作在保證預測正確性的前提下,仍需從根本上提升InstructGPT等大模型抽取實體的能力。除此之外,針對嵌套命名實體識別任務,本文還統計了InstructGPT生成的實體中嵌套實體的比例,即實體嵌套率,發現其遠低于數據集中的比例。并且,抽取嵌套實體的正確率也不足一半。這說明大模型在處理嵌套實體方面還是面臨挑戰的。

總的來說,本文的貢獻主要體現在以下個四方面:

(1) 本文首次詳細探究了InstructGPT在命名實體識別任務上的表現,覆蓋了生物醫學領域和通用領域、常規場景和嵌套場景的數據,并在零樣本和少樣本設定上都進行了實驗。本文提供的實驗結果可以作為之后研究的基準。

(2) 首次提出將思維鏈應用到命名實體識別任務上,并為生物醫學領域和通用領域的數據設計了不同形式的思維鏈,并對其性能進行了測試。

(3) 本文從兩個指標出發,對InstructGPT的輸出進行了錯誤分析,發現了輸出的無效性是阻礙InstructGPT性能提升的重要因素。通過分析無效生成問題導致的虛假預測問題,本文發現,解決無效生成問題并不一定會提升InstructGPT在命名實體識別上的性能。未來工作可以針對本文列舉的無效生成類型,首先保證模型生成的正確性,其次設計更好的抽取實體的方法。

(4) 首次針對性地研究了InstructGPT在嵌套命名實體識別任務上的表現,發現InstructGPT的實體嵌套率和嵌套正確率較低。通過增加上下文示例的數量可以一定程度上增加InstructGPT生成嵌套實體的比例和識別的正確率。

1 任務定義

命名實體識別作為一個基本的結構化抽取任務,旨在從原始文本中抽取實體片段,并將它們分類到預定義的類型中。例如,“復旦大學是上海市的一所綜合性大學?！敝?“復旦大學”是組織類別的實體,“上海市”是地點類別的實體。本文為了提升效率,InstructGPT需要一次性從句子中抽取出所有類型的實體片段并分類。即,上面句子的輸出應該為“組織: 復旦大學;地點: 上海市”。最后,模型的原始輸出被解析成結構化的實體,從而進行評測。

2 提示的設計

為了充分研究InstructGPT在命名實體識別任務中的表現,本節詳細描述了在不同設定和領域中提示的設計。

2.1 零樣本命名實體識別

零樣本學習時,本文使用的提示由3個部分構成: 任務指令、候選句子、指示詞。如圖1所示,本文為零樣本命名實體識別設計了兩種提示。圖1中從上到下的示例分別來自生物醫學領域、英文通用領域和中文通用領域。

2.1.1 原始提示

作為基準,本文沿用了之前工作的提示,其中任務指令是關于命名實體任務的描述,并給出需要抽取的實體類別。在抽取可能包含嵌套實體的句子的時候,本文在任務指令后面添加了“Notice that there may exist nested entities.”。候選句子由“Sentence:”/“句子: ”拼接待抽取的句子。指示符是“Entity:”/“實體: ”。原始提示的示例如圖1(a)所示。

2.1.2 結構化提示

正如第1章所討論的,InstructGPT在其生成格式方面展現出了相當大的靈活性。因此,設計提示來指導InstructGPT生成理想的格式化輸出對于實現有效的解析至關重要。因此,本文修改了任務指令部分,添加了輸出格式的詳細指令。中英文關于輸出格式的描述有所不同。其余兩個部分與原始提示一致。如圖1(b)所示,結構化指令部分用下劃線標出。

2.2 少樣本命名實體識別

少樣本學習時,本文使用的提示由四個部分構成: 任務指令、示范(Demonstration)、候選句子、指示詞。除了新增的示范部分,其他部分都與零樣本學習的原始提示相同。如圖2所示,本文使用了兩種常見的大模型少樣本學習方法,即上下文學習和思維鏈。不同方法的改變只存在于示范部分。圖2中從上到下的示例分別來自生物醫學領域、英文通用領域和中文通用領域,并只拼接了一個示范作為例子。

2.2.1 上下文學習

受到之前工作的啟發[5],本文設計的示范部分由幾個完整訓練示例組成,即訓練示例構成的候選句子、指示詞以及模型輸出。其中訓練示例的輸出應與最終期望的模型輸出具有相同的格式。圖2(a)給出了三種情況下的上下文學習輸入輸出的例子。

2.2.2 思維鏈

與上下文學習不同,思維鏈[8]的示范部分由幾個推理鏈組成。其中每個推理鏈都包括了一系列中間推理步驟,即原理(Rationale)和答案。本文是第一個將思維鏈提示應用到命名實體識別上的研究,并為不同領域的數據設計了不同的推理鏈。如圖2(b)所示,推理鏈部分用下劃線標出。

對于生物醫學領域,本文首先從維基百科檢索出實體的條目頁面,并選擇定義句子(通常在文檔開頭)作為推理鏈。如果該實體沒有條目,則隨機選擇一個包含該實體的句子。之后,在推理鏈后拼接“Therefore”開頭的結論作為答案部分。對于通用領域,本文受到了triggerNER[10]的啟發。triggerNER是通過選擇特定的單詞和短語作為解釋性標注來識別實體。對于CoNLL03數據集,本文直接使用triggerNER的標注;對于其他通用領域數據集,本文使用該技術原理,人工標注了解釋性單詞和短語。之后,將這些解釋性單詞和短語用自然語言描述,作為推理鏈;用“Therefore/因此”開頭的結論作為答案。

3 實驗

本章節首先介紹了本文使用的9個數據集,然后展示并分析討論了實驗結果,來分別回答前面提出的兩個問題。

3.1 數據集

本文在三個生物醫學領域、四個常規通用領域和兩個嵌套通用領域的命名實體識別數據集上進行了實驗。沿用過去的工作,本文只在1 000條測試數據上評估InstructGPT的表現,如果測試集數據少于1 000條,則使用全部測試集。每個實驗使用相同部分的子數據集。

3.1.1 生物醫學領域數據集

本文選擇了BLURB基準數據集[11]中的三個數據集。其中生物創新V化學-疾病關系語料庫(BioCreative V Chemical-Disease Relation corpus)[12]包含了PubMed摘要中標注為疾病(BC5CDR-disease)和化學(BC5CDR-chem)實體的句子,生物創造II基因提及(Biocreative II Gene Mention, BC2GM)[13]數據集則包含了PubMed摘要中的基因標注。

3.1.2 通用領域數據集

本文選擇了四個常用的通用領域的常規命名實體識別數據集,其中,兩個是英文,兩個是中文。對于英文數據集,本文使用了CoNLL03[14]數據集和OntoNotes5[15]數據集,其中OntoNotes5數據集本文只保留了非數字的實體類別;對于中文數據集,本文使用了MSRA[16]數據集和OntoNotes4[17]數據集。除此之外,本文還選擇了兩個常用的英文嵌套命名實體識別數據集,分別是ACE04[18]和ACE05[19]。

3.2 結果: InstructGPT在不同設定和不同領域上表現得怎么樣?

本節的實驗旨在探究InstructGPT在低資源場景下解決命名實體識別任務的能力。表1展示了生物醫學領域數據集的實驗結果,表2和表3分別展示了通用領域常規實體和嵌套實體數據集的實驗結果。少樣本學習時,本文分別在拼接1個、5個和10個示例的情況下測試。每個結果都是5次實驗結果的平均值,下標表示標準差(例如,76.811表示76.8±1.1)。

表1 生物醫學領域數據的主要結果 (單位: %)

表2 通用領域數據的主要結果 (單位: %)

表3 通用領域嵌套實體的主要結果 (單位: %)

3.2.1 生物醫學領域

在生物醫學領域,本文對比了微調BioBERT[20]預訓練模型的結果。零樣本學習時,InstructGPT在生物醫學領域數據集上能達到41%～61%微調模型的表現。本文發現結構化提示對零樣本學習似乎沒有影響,甚至會對疾病和化學類別實體的提取產生負面影響。

在少樣本學習時,InstructGPT在少樣本的生物醫學領域的數據上的表現達到了51%～80%微調模型的能力。增加示例數量(從1個到10個)在上下文學習和思維鏈方法中都有益于F1的提高,分別平均有+10.3和+41.6的增長。但是,僅使用一個示例時,思維鏈方法的F1相較于上下文學習平均下降了25.2。這是由于思維鏈方法的生成中,原理部分的結構比較復雜,InstructGPT難以保證有效輸出,導致了嚴重的解析失敗問題,從而表現不佳。一旦示例數量增加,InstructGPT在生物醫學領域數據集上使用思維鏈的性能優于只使用上下文學習。

3.2.2 通用領域

在通用領域的常規命名實體識別數據集上,本文對比了微調RoBERTa[21]預訓練模型的結果。在通用領域的嵌套命名實體識別數據集上,本文對比了微調BERT[22]預訓練模型的結果。由于該篇工作沒有匯報完整的實驗結果,因此我們也只在表格中展示了F1。在零樣本常規實體的抽取上,InstructGPT大概能達到20%～56%微調模型的性能;在嵌套命名實體識別數據上大概能達到20%～29%微調模型的性能。另外,本文發現,在常規實體的抽取上使用結構化提示可以顯著提高性能,F1平均提高了8.7。這意味著通過修改提示指導InstructGPT生成更加格式化的輸出對于通用領域實體識別是有效的。嵌套實體抽取中使用結構化提示反而一定程度上損害了性能。

在少樣本學習時,隨著上下文示例數量的增加,在常規命名實體識別任務上,上下文學習和思維鏈的性能分別平均提高了14.4和24.8;在嵌套命名實體識別任務上,則分別提高了11.9和15.5。對于通用領域常規實體的提取,實驗發現思維鏈在常規實體抽取上的用處不大。其原因可能是實體觸發詞與實體本身之間沒有強烈的因果關系,導致不能激發模型潛在的推理能力。并且由于思維鏈的輸出結構更加復雜,反而會一定程度上損害模型的表現。值得注意的是,在每個設置中,OntoNotes5的性能明顯低于其他數據集。這是由于OntoNotes5有11個類別,遠遠多于其他數據集的3、4個類別。InstructGPT在解決很多類別的分類時,也面臨了巨大的挑戰。思維鏈方法運用在嵌套實體中可以一定程度上提升性能,這可能是由于ACE04和ACE05數據集中有很多指代詞被標注為實體。思維鏈的使用幫助InstructGPT利用上下文的邏輯來抽取實體。

總體而言,與微調模型相比,實驗發現InstructGPT在每個命名實體識別數據集上的表現都不盡人意。具體來說,InstructGPT只能通過零樣本提示實現11%～56%的性能。即使添加了示例樣本,InstructGPT的F1最多也只能達到72%。通過之前的觀察,本文建議在解決通用領域的命名實體識別問題時,可以使用結構化提示來提升最終的性能。面對少樣本問題時,思維鏈提示在生物醫學領域更有可能表現良好;而對于通用領域的少樣本學習,上下文學習足以勝任。

3.3 結果: 為什么InstructGPT在命名實體識別任務上表現得不理想?

正如前文所述,盡管在許多設定下進行了嘗試,InstructGPT的結果與微調模型之間仍存在顯著差距。本節對輸出文本進行了詳細的分析,發現了導致結果不理想的一個重要原因是無效生成。這種無效性問題還會導致虛假預測問題,使得目前獲得的結果不完全準確。在嵌套命名實體識別時,本文發現InstructGPT的嵌套實體識別率偏低,說明在識別嵌套的實體上還面臨挑戰。

3.3.1 無效生成

由于命名實體識別任務本質上是一個結構化抽取任務,因此最終目的是得到結構化的實體。要將InstructGPT輸出的非結構化文本解析成結構化的實體,其生成的輸出必須是格式化的,才能成功地匹配解析?；谶@個特性,本文引入了“格式無效”這一指標,表示模型輸出的格式與期望格式不符。主要體現在解析階段無法區分不同實體類型之間的實體,或者無法區分類別詞和實體。例如,圖3中的(1)就是“格式無效”的一個例子。此外,命名實體識別任務要求抽取的實體片段必須完全屬于原始句子。由于實體有各種表達方式,InstructGPT可能會生成該實體的其他形式,從而導致匹配解析失敗。此外,單數和復數的使用不一致也會導致此問題。本文為此定義了“片段無效”指標來記錄不符合該要求的實體片段的數量。例如,圖3中(2)就是“片段無效”的一個例子。

除此之外,本文還引入了“無效句子”,來記錄具有任何以上兩種類型無效性的句子的數量。三種無效性的結果如圖4所示。在每個子圖中,“格式無效”和“片段無效”的單位都是片段數量,基于左邊的Y軸,而“無效句子”的單位是句子數量,基于右邊的Y軸。值得注意的是,生物醫學領域數據集的“格式無效”在零樣本學習和上下文學習時始終為0。這是由于生物醫學領域的數據集都只有一個實體類型,解析過程中不需要格式匹配來區分不同實體類型。

圖4 無效生成的統計數據圖

總的來說,無效生成問題有三個值得注意的結論: (1) 在零樣本學習時添加結構化提示或者在少樣本學習時增加示例數量都有助于提高輸出格式的正確性。從圖3中可以看出,增加結構化提示后,“格式無效”平均減少了34個;將示例數量從1個增加到10個,“格式無效”在上下文學習中平均減少了42個,在思維鏈上平均減少了536個。(2) 使用思維鏈方法時,如果只拼接一個示例,InstructGPT很難模仿復雜的推理過程。如圖4所示,每個數據集在只使用一個示例的思維鏈方法中,都有相當多的“格式無效”,達到了600到900個片段。增加示例的數量可以顯著緩解這個問題,如可以將無效的片段數降低到個位數。(3) “片段無效”問題更具挑戰性,并且使用現有的大模型學習方法難以解決。通過提示或者示例引導InstructGPT生成格式化的輸出,幾乎可以將“格式無效”降至零;但幾乎每個數據集的每個場景中,“片段無效”都超過了200個。InstructGPT在中文數據集上的“片段無效”問題尤為嚴重。

3.3.2 虛假預測

上一節描述的無效生成問題可能會導致InstructGPT的輸出面臨解析失敗的問題。解析失敗會導致預測正確的實體沒有被解析出來,即判別為預測錯誤的句子實際是正確的,使最終性能偏低,本文稱之為“虛假錯誤預測”。直覺上,設計更好的提示或者更好的解析方法可以緩解無效生成的問題,進而減少“虛假錯誤預測”,從而得到更好的性能。然而,通過收集InstructGPT存在無效生成的句子,本文發現,解析失敗還會使一些預測錯誤的實體躲過與目標實體匹配的過程,使得預測錯誤的句子被錯誤判別為正確預測,使最終性能偏高,本文稱之為“虛假正確預測”。本文將這兩種情況統稱為虛假預測。

存在“虛假錯誤預測”的句子,一旦模型的輸出被更好地解析,就可能糾正這些虛假錯誤,性能就可以進一步提高。從表2、表3和圖4中可以看出,零樣本中增加結構化提示或者少樣本中增加樣本數量時,“格式無效”的數量減少,F1也相應地有所提升。

“虛假正確預測”的統計結果見圖5,每個子圖的單位都是句子數量,每個柱體的高度是正確預測的數量,包括“真實正確”(實心部分)和“虛假正確”(斜線部分)。如果InstructGPT預測正確并且輸出的句子不存在無效生成問題,則表示該測試用例是真實正確的?！罢鎸嵳_”部分表明,添加結構化提示比僅使用一個示例更有用,同時添加的示例越多,真實正確的數量也越多,表示模型能力越好。如果InstructGPT預測正確但是輸出句子存在無效生成,則認為該測試用例是虛假正確的。實驗表明,原始提示和使用一個樣本的思維鏈方法均面臨了嚴重的“虛假正確”問題。正如3.3.1節描述的,這兩種情形下,InstructGPT的輸出存在很多“格式無效”問題。這個問題可以通過添加結構化提示和增加示例數量緩解。

總之解決InstructGPT生成的無效性并不能保證最終結果的提高。如果解決的“虛假錯誤預測”問題多于“虛假正確問題”,則最終性能會提升;反之,性能會下降。因此,為了從根本上提升InstructGPT在命名實體識別任務上的表現,未來工作首先應該解決虛假預測的問題,保證最終的性能是真實的。阻礙性能真實性的主要問題之一是無效生成問題。減少輸出格式與期望格式不匹配的“格式無效”問題的一個主要方法是使用結構化提示或添加更多示例。如何確保模型輸出的片段有效,仍是InstructGPT在這種結構化抽取任務上的瓶頸。未來的工作可以更多地關注提升大規模語言模型在片段定位上的能力。

3.3.3 嵌套實體識別率

在嵌套命名實體識別場景下,實體之間可能存在嵌套關系,即一個實體包含了其他實體。本文統計了各個實驗設定下,InstructGPT抽取的嵌套實體數、抽取正確的實體數和總的實體數。為了公平對比,還計算了嵌套正確率=抽取正確的嵌套實體數量/嵌套實體數量,實體嵌套率=嵌套實體數量/總的實體數量。表4對比了上述統計數據與測試集中實際的數量。

表4 嵌套實體識別率統計

本文發現,InstructGPT生成的實體嵌套率遠遠低于實際的比例,最多只能達到5%,這說明InstructGPT還是更傾向于預測常規的實體。而預測出來的嵌套實體中,模型也通常只能做對不足50%,這說明定位到正確的嵌套實體位置對于InstructGPT來說還是一項重大的挑戰。除此之外,上下文學習的場景下,InstructGPT傾向于生成更多的嵌套實體,本文推測通過添加存在嵌套實體的示例,可以挖掘模型識別嵌套實體的能力,而這比用指令指導InstructGPT生成嵌套實體更有用。而思維鏈提示中復雜的推理句子,讓InstructGPT模糊了嵌套實體的位置,更注重抽取需要推理的代詞實體。另外,增加上下文示例的數量可以一定程度上增加嵌套正確率。

4 相關工作

近些年,大規模語言模型[1,4,6,23]如雨后春筍般涌現。他們龐大的模型規模帶來了強大的能力,尤其是在零樣本學習和少樣本學習上展現了驚人的效果。在解決零樣本任務時,大規模語言模型僅需要適當的提示就能在很多任務上達到和微調模型同樣的效果[5]。在解決少樣本任務時,大規模語言模型僅通過上下文學習便表現出令人驚嘆的泛化能力[1]。一些先前的工作[8,24]探索了思維鏈提示,即利用推理鏈進一步激發大規模語言模型的推理能力。在他們之中,GPT-3系列[1-3]是最受關注的模型。在這個系列中,InstructGPT[3]引入了來自人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF),是第一個與用戶對齊的模型。因此,本文選擇探究InstructGPT的能力。

使用大規模語言模型解決自然語言處理任務中的零樣本學習和少樣本學習時,主要有兩種方法。其一,一些工作[25-27]使用大規模語言模型來標注沒有標簽的數據,并使用這些偽標簽對小規模預訓練語言模型(Pre-trained Language Models, PLMs)進行微調。然而,命名實體識別是一項詞元級別的標注任務,InstructGPT很難直接對句子中的實體片段進行標注。其二,一些研究[5,28]直接應用大規模語言模型進行推理。本文也采用這種方法直接評估模型的表現。之前也有一些工作[9,28]評估了這種方式下命名實體識別任務的性能,但他們只在特定領域進行了少樣本的上下文學習。目前,還沒有工作全面地研究InstructGPT在各種領域的命名實體識別上各種設定下的性能和輸出的分析。本文對命名實體識別的性能和面臨的挑戰進行了詳細分析。

5 研究與展望

本文對InstructGPT在命名實體識別任務中的表現進行了全面研究,實驗的數據集覆蓋了生物醫學領域和通用領域,其中通用領域還考慮了中英文常規數據集和英文嵌套數據集。本文分別在零樣本學習和少樣本學習中各采用了兩種提示,來評估InstructGPT的表現。實驗發現,InstructGPT在命名實體識別中的表現并不理想,離微調小模型還有很大差距。經過實驗統計分析,這主要是由于輸出中存在“格式無效”和“片段無效”問題,使得解析過程失敗。為了減少無效性問題,本文建議使用結構化提示或增加示例樣例的數量來幫助InstructGPT克服“格式無效”的問題。除此之外,解決“片段無效”也是至關重要的,并且是未來使用大規模語言模型解決結構化抽取的重點研究方向。本文發現生成無效導致的虛假預測問題,不僅可能使結果偏低,也可能導致結果偏高。因此,未來工作仍需要從其他思路來進一步提升InstructGPT抽取實體的能力。對于更加復雜的嵌套實體來說,InstructGPT也面臨了很大的挑戰。InstructGPT的識別實體的嵌套率遠低于數據集中本來的比例。因此,如何使得大模型識別更多的嵌套實體也是未來工作的一大難點。此外,本文是第一個在命名實體識別任務中實現思維鏈提示的研究。實驗觀察到,相比通用領域,思維鏈在生物醫學領域中更有效。并且,使用思維鏈提示需要足夠數量的示例以避免嚴重的“格式無效”問題?？傊?本文探究了使用InstructGPT在命名實體識別任務中存在的限制和潛在的改進方法。希望本文的發現能為未來的大規模語言模型研究提供有價值的見解。