論大語言模型材料的證據屬性
——以ChatGPT和文心一言為例

2024-04-15 02:47徐繼敏嚴若冰

四川師范大學學報（社會科學版） 2024年1期

徐繼敏嚴若冰

一新型大語言模型材料必將廣泛運用于法治實踐

2022年11月,美國公司OpenAI推出的預訓練生成式通用大語言模型(Large Language Model,LLM)(1)“大語言模型”也稱“大型語言模型”或“語言大模型”,均指英語中的LLM(Large Language Model),可以作完全相同理解。ChatGPT獲得巨大反響。用戶通過瀏覽器訪問的ChatGPT聊天機器人是基于ChatGPT模型形成的產品,但目前較少對兩者進行區分(2)ChatGPT既是OpenAI發布的聊天機器人的名字,也是產生該聊天機器人的大語言模型的名字,即大語言模型與大語言模型產品同名。報道和研究常稱產生ChatGPT聊天機器人的大語言模型為GPT-3.5,但根據OpenAI官網上的ChatGPT常見問題解答(ChatGPT General FAQ),更準確地說,ChatGPT模型是以GPT-3.5為基礎進行微調得到的。2023年3月14日,OpenAI發布了GPT-4模型,升級后以GPT-4模型為基礎的聊天機器人叫作ChatGPT Plus。。ChatGPT是單一模態大語言模型,理解和生成信息都限于文本(含代碼)形式,而OpenAI在2023年3月發布的GPT-4為多模態大語言模型,在理解圖像、處理復雜任務等方面有所提升。兩者都缺乏對數據截止時間后相關信息的了解,且給出的回答不一定正確,大語言模型的這些錯誤被稱為“幻覺”(hallucination)(3)如GPT-4的數據截止時間為2021年9月,參見:“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses,” OpenAI, updated March 15,2023, accessed May 22, 2023, https://openai.com/product/gpt-4。。3月23日,ChatGPT允許用戶通過添加插件進行聯網,實現了信息實時檢索等功能,能力得到進一步提升(4)“ChatGPT plugins,” OpenAI, updated March 23, 2023, accessed May 22, 2023, https://openai.com/blog/chatgpt-plugins.。在國內,百度于3月16日發布大語言模型“文心一言”(5)文心一言可以生成文本、語音、圖像和視頻等內容,具備多模態能力。根據筆者自3月17日參加內測的情況,文心一言與ChatGPT尚有明顯差距,但是可以參與文稿初步生成、文字校對、文本翻譯等日常工作。,阿里于4月7日開放“通義千問”大語言模型體驗申請,商湯科技于4月10日發布大語言模型產品“商量”,我國的大語言模型也在不斷推進。關于大語言模型對文字行業的影響,我們可以從AI繪畫對繪畫行業的影響中窺見一些線索。AI繪畫工具能夠基于文字提示生成圖像,成本低、效率高,自推出時就受到繪畫行業的抵制(6)陶鳳、李想《“離譜”AI繪畫賺錢不離譜》,《北京商報》2023年2月2日,第4版。。筆者通過對國內游戲從業者的訪談了解到,目前AI繪畫對游戲美術業務的沖擊已經顯現,游戲公司的美術外包業務甚至內部美術團隊都面臨著被裁撤的風險,因為繪畫行業的抵制行動難以對抗企業降低成本的意愿。

可以預見,大語言模型將廣泛深入地參與到社會生活中。首先,大語言模型已受到各科技企業和科研團隊的高度重視,國外有谷歌的Bard、Anthropic的Claude、Meta的BlenderBot3等,國內有百度的文心一言、阿里的通義千問、商湯科技的商量、華為的盤古、騰訊的混元、中國科學院自動化研究所的紫東太初等。其次,大語言模型有較成熟的技術和已經落地且取得商業成功的產品,其熱度性質與暫時缺少技術鋪墊的元宇宙概念不同。再次,大語言模型作為基石性模型(Foundational Model)具有較強拓展潛力,可以和搜索引擎、內容平臺等應用相結合,也可以與各種公共服務場景相結合(7)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國法律評論》2023年第2期,第2頁。。最后,大語言模型與個人生活工作結合緊密,有潛力成為新的樞紐平臺。ChatGPT允許聯網后,用戶可以通過它進行訂餐、訂機票和訂酒店。ChatGPT獨特的產品能力和工作性能或可吸引一批用戶改變原本的互聯網消費習慣,轉而以ChatGPT作為新的信息處理樞紐,甚至通過路徑依賴形成深度綁定。隨著大語言模型的鋪展,大語言模型材料將大量出現并得到普遍運用。

目前大語言模型產品的主要形式是聊天機器人和搜索引擎,雖然兩者都非新興事物,但是大語言模型相比以往技術的區別存在諸多特殊性,至少包括以下四項:第一,大語言模型材料以生成性的文本(含代碼)為主,多模態大語言模型材料還可能包括圖片、語音和視頻;第二,大語言模型是基石性模型,未來許多產品和功能可以在其基礎上搭建,大語言模型材料的形態和運用將非常豐富(8)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國法律評論》2023年第2期,第2頁。;第三,大語言模型能通過自然語言與使用者進行交流,甚至能讓使用者察覺不到自己在與機器對話,難以意識到大語言模型材料的存在;第四,大語言模型有很強的黑箱效應,而且ChatGPT、GPT-4和文心一言等主要大語言模型的訓練數據和模型均未公開,使大語言模型及其形成材料的可解釋性受到更深質疑。

由上可知,大語言模型材料的廣泛出現將帶來新的法律問題,而證據問題在其中尤為突出。比如在民事領域,大語言模型如果有不當廣告行為,使用者和監管機構如何進行證據提取和審查;在刑事領域,大語言模型可能被利用來進行犯罪活動,公檢法機關應如何調查取證和運用證據;在行政領域,大語言模型如果被用于政府建設(9)如張效羽認為,GPT技術的長處與法治政府建設的基本需求具有技術親和性,未來法治政府建設要為人工智能嵌入行政執法程序做好充分準備。參見:張效羽《ChatGPT等人工智能內容生成技術對法治政府建設的影響及應對》,《電子政務》2023年第4期,第12-14頁。,可以在多大程度上影響甚至取代行政機關工作人員的行政行為,是否會出現智能行政行為,行政相對人如何在復議、訴訟中運用大語言模型材料等。雖然尚無案例出現,但隨著大語言模型研究和運用的深化,大語言模型材料進入證明活動或許是司法實踐和學術研究必然要面對的挑戰。目前大語言模型在產品應用上還相對保守,主要以聊天機器人和搜索引擎的形式呈現,但大語言模型產品的未來遠不止這些:ChatGPT、GPT-4已經開放聯網,使用者可以通過下載插件實現實時檢索等多項需求;微軟宣布將GPT-4集成到Copilot,今后Office系列軟件的使用方式將發生巨大變化;超三百家公司宣布與文心一言合作,涵蓋媒體、文娛、金融等行業領域。當大語言模型作為一項基礎工具與我們日常生活的方方面面結合,它產生的材料將遠比本文能夠看到的更加復雜。正如電子數據隨著互聯網和計算機技術進入法律實踐,或許大語言模型證據也將占有類似的重要地位。

二大語言模型材料的定義、技術、內容和類型化

(一)大語言模型材料的定義

大語言模型材料是指與大語言模型使用行為相關的、在證明活動中可能作為證據使用的材料。廣義的大語言模型材料包括人機交流材料、大語言模型本體相關材料和大語言模型運行環境信息三個部分;狹義的大語言模型材料則僅指由大語言模型生成的材料(10)由于缺少既有研究,“大語言模型材料”和“大語言模型證據”均為本文提出的概念。。從概念關系上看,大語言模型屬于人工智能技術,如果承認大語言模型材料可以成為證據,那么,“大語言模型證據”也屬于人工智能證據的范疇。人工智能證據已經受到司法實踐和法學研究的關注,可以成為研究大語言模型材料的重要參考。目前實踐中還缺少將大語言模型材料作為證據的情形,而且大語言模型材料的具體內容和證據資格問題暫無學術共識或規范依據。為求穩妥,本文主要稱“大語言模型材料”而非“大語言模型證據”,不過本文認為大語言模型材料可以成為證據,因此也將適當使用“大語言模型證據”的提法。

(二)大語言模型技術的概況及相關法律規范

自然語言處理(Nature Language Processing,NLP)技術被廣泛應用于搜索引擎、智能客服、機器翻譯、輿情監測、自動摘要等領域,大語言模型是自然語言處理領域的前沿成果(11)傳統人機交互由人類以機器語言、編程語言實現和機器的交流,而自然語言處理旨在讓機器理解和生成人類語言,通過機器對人類語言的適應實現人機交互。自然語言理解(NLU)支持機器理解人類自然語言文本的內容,自然語言生成(NLG)支持機器以自然語言文本的形式輸出信息。因此總體來說,自然語言理解和自然語言生成都屬于自然語言處理。除自然語言處理外,人工智能領域還有計算機視覺(Computer Vision,CV)、計算機聽覺(Computer Audition,CA)等研究方向,與人類的自然感知系統形成對應關系。。ChatGPT、GPT-4、文心一言、通義千問等都屬于預訓練生成式通用大語言模型,具有通用性、超多參數、生成式等特點。通用性是指模型不局限于某一行業或細分領域,旨在理解和回應常識性、通用性問題。ChatGPT、通義千問是單一模態大語言模型,GPT-4和文心一言則具備多模態能力?；谕ㄓ?、多模態的模型特點,大語言模型材料的內容也具有通用性,可能包含文字、圖片、語音和視頻等多種模態。

模型指通過學習算法(Learing Algorithm)“從數據中學得的結果”(12)周志華《機器學習》,清華大學出版社2016年版,第1頁。,大模型和小模型以參數量(Parameter Size)為劃分標準,ChatGPT的參數量達到千億級,GPT-4的參數量據說更達到兆級(13)目前ChatGPT和文心一言參數量均未公布,此處ChatGPT和GPT-4參數量數據采用美國網站Semafor援引8名知情人士消息。參見:Reed Albergotti, “The secret history of Elon Musk, Sam Altman, and OpenAI,” Semafor, updated March 25, 2023, accessed May 22, 2023, https://www.semafor.com/article/03/24/2023/the-secret-history-of-elon-musk-sam-altman-and-openai.。大模型和知識圖譜(Knowledge Graph,KG)是人工智能發展的不同路徑(14)大語言模型是給一個有超多參數的模型網絡喂海量文本數據進行訓練,再對其進行微調;知識圖譜則是顯式地抽取出實體、關系等信息,構成由節點(Node,表示實體)和邊(Edge,表示關系)組成的關系網絡。,由于ChatGPT的成功,許多人認為大語言模型更可能是未來發展的方向,但知識圖譜仍然可以作為大語言模型的訓練數據或以外接方式發揮作用(15)根據2023年3月16日百度公司文心一言發布會內容,文心一言以5500億事實的知識圖譜為訓練數據。知識圖譜的“事實”指由節點a,關系r,節點b共同構成的一個三元組。。知識圖譜的成本相對較低,且能夠通過直觀可視的關系網絡呈現,可解釋性較強;大語言模型以“大算力+強算法”為重要特征,內部極為復雜,可解釋性較差。大語言模型的可解釋性弱決定了大語言模型材料容易受到質疑,但這不意味著大語言模型材料缺乏證據法上的可靠性。

大語言模型能夠生成新的內容,其生成材料屬于人工智能生成內容AIGC(AI Generated Content)。AIGC包括AI繪畫、AI翻唱、大語言模型寫作等,雖然在著作權上存在爭議(16)如“AI孫燕姿”、“AI周杰倫”等翻唱作品引發著作權相關討論。參見:顧敏、陳月飛等《技術迅猛發展,AI如何“向善”》,《新華日報》2023年5月16日,第5版;李欣璐《專家:“AI歌手”或涉嫌多項侵權》,《四川法治報》2023年5月17日,第5版;劉凡《解碼AI歌手習藝之道》,《海南日報》2023年5月22日,第B09版。,但是已經得到企業和個人的廣泛運用。4月11日,國家網信辦就《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見,涉及對大語言模型生成材料進行規范。從生成式特點出發,大語言模型材料屬于深度合成內容。我國在深度合成治理上走在世界前列,2022年11月出臺的《互聯網信息服務深度合成管理規定》對深度合成進行了定義和規范。但大語言模型的深度合成能力超越以往算法,給立法提出了新的挑戰,要求深度合成立法從算法治理走向人工智能治理(17)張凌寒《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國路徑》,《法律科學(西北政法大學學報)》2023年第3期,第38-51頁。。

(三)大語言模型材料的具體內容及其證據價值

大語言模型材料是復合型材料,可以被分解為三個主要部分:人機交流材料、大語言模型本體相關材料和大語言模型運行環境信息。由于大語言模型本體材料和云計算服務平臺環境信息提取收集的難度極高,且對證明一般案件的案件事實作用不大,大語言模型材料在實踐中或將主要以人機交流材料和使用者本地環境信息的形式呈現。

1.使用者與大語言模型交流形成的材料

使用者與大語言模型交流的材料(簡稱為“人機交流材料”) 以文本(含代碼)為主,可能包含圖片、語音和視頻,一般載于計算機或者移動設備的網頁,呈現為人類使用者與大語言模型一問一答組成的連續性對話。以同一使用者為范圍,涉及的人機交流材料可以被分為三個層次。第一,最低層次材料是使用者與大語言模型一問一答形成的“問答”,均由使用者先輸入信息或提出問題,再由大語言模型進行回答。第二,中間層次材料是由連續問題組成的“對話”,這是人機交流材料中最重要的單位,適宜成為一份人機交流材料的基礎范圍?！皩υ挕辈⒉灰栽掝}內容和時間間隔為識別標準,而是要考慮大語言模型的“記憶”范圍。本文所稱“記憶”指大語言模型聯系上下文的能力,在“記憶”范圍內,如果使用者能夠通過恰當的“提示”(Prompt)引導對話,大語言模型將給出更加精確的回答。這種與大模型進行交流、得到更優結果的方法被稱為提示工程(Prompt Engineering),已經受到技術和產業領域的肯定和重視(18)百度創始人李彥宏預測稱,十年以后全世界或有50%的工作會是提示詞工程(Prompt Engineering)。參見:《李彥宏獨家回應36氪:如何看待AI代替人類工作》,36氪,2023年3月22日發布,2023年5月23日訪問,https://36kr.com/newsflashes/2182652773859072。。目前影響大語言模型記憶范圍的因素主要有:問答是否屬于大語言模型產品中的同一對話框,以及技術公司設置的大語言模型產品記憶上限,如微軟的必應就有記憶問答的上限。第三,最高層次材料是同一使用者賬號下的所有人機交流材料,它包括同一使用者與大語言模型的所有對話。需要注意的是,賬號所有者與大語言模型使用者未必是同一人,需要結合使用者本地環境信息、相關言詞證據等進行綜合判斷。

使用者輸入的材料是大語言模型理解的對象。根據GPT-4和文心一言的多模態能力,使用者輸入大語言模型的材料可以是文本(含代碼)和圖像,且以文本為主要形式。從證據角度看,使用者輸入大語言模型的材料至少具有以下價值。第一,能夠反映使用者的主觀心態,比如體現使用者對某類信息的需求和認知。刑事案件中犯罪嫌疑人在瀏覽器留下的相關搜索記錄能證明其主觀上對犯罪行為的認識和心態,今后或許會有嫌疑人就類似問題向大語言模型產品提問,那么證據也相應地從電子數據轉為大語言模型材料。第二,能夠反映大語言模型生成的材料是否合理。大語言模型生成的材料應與使用者輸入材料有一定對應關系,兩者過于不匹配或說明大語言模型生成材料的可靠性較弱。第三,能夠反映使用者對大語言模型生成材料的認識。在人機連續對話環境中,使用者輸入的材料除了獨立表達意思,還是對大語言模型生成材料的回復,因此能反映大語言模型生成材料對使用者的影響,比如使用者是否受到了不正當廣告行為的誘導。

大語言模型生成的材料可以被看作是最狹義的大語言模型材料。目前大語言模型可以生成的材料類型包括文本(含代碼)、圖像、語音甚至視頻。本文認為大語言模型生成材料包含了“機器意見”和“人類意見”兩種元素,“機器意見”指大語言模型的創新性元素,“人類意見”指使用者的指令、干預、引導元素?！皺C器意見”的可靠性不強,即使是目前公認性能最優秀的GPT-4模型也存在“幻覺”。大語言模型還不能像一些文章中提到的人工智能證據那樣——比如人臉識別系統判斷照片中人是特定某人——能以機器自身的“意見”發揮證據作用(19)馬國洋《論刑事訴訟中人工智能證據的審查》,《中國刑事法雜志》2021年第5期,第158頁。。大語言模型生成材料可以反映大語言模型服務提供者和使用者的不當甚至違法行為,比如服務提供者通過大語言模型推送不恰當廣告信息,使用者利用大語言模型進行詐騙、開展“網絡水軍”活動等。

2.大語言模型本體材料

與大語言模型本體相關的材料有:第一,用于形成大語言模型且影響大語言模型生成內容的材料,主要包括訓練數據和深度學習算法;第二,大語言模型算法本身,如ChatGPT模型、GPT-4模型和文心一言模型;第三,大語言模型產品,指在大語言模型基礎上形成的具體產品,如ChatGPT聊天機器人、接入GPT-4的必應搜索引擎。

大語言模型生成的具體內容由訓練數據和深度學習算法決定:訓練數據是指用于大語言模型訓練的海量數據,深度學習算法可以理解為大語言模型學習的方法。訓練數據和深度學習算法涉及到大語言模型在技術公正和算法黑箱方面的核心問題,具有相當的證據意義。但它們的可解釋性非常弱,難以被人類的自身能力感知,因此在證據運用上存在困難。其一,訓練數據對模型可靠性有重要影響,如樣本數據少容易“過擬合”(20)周志華《機器學習》,第13頁。,且“在不可信數據上訓練的模型的性能將會大幅下降,甚至在模型中留有嚴重后門”(21)何燦《機器學習模型訓練數據的安全性研究》,南京航空航天大學2021年碩士學位論文,第1頁。。評價訓練數據的因素包括數據質量、規模、多樣性以及是否經過預處理等?！渡墒饺斯ぶ悄芊展芾磙k法(征求意見稿)》提出,訓練數據應符合法律法規要求,不得侵犯知識產權、個人信息權,應當保證真實性、準確性、客觀性和多樣性。從證據角度看,訓練數據規模巨大、內容復雜,人類無法通過自身感知能力對其進行有效審查,這與大數據證據有一定相似性。本文認為,可以參照劉品新對大數據證據的觀點,讓訓練數據通過司法鑒定,作為鑒定意見進入證明活動(22)劉品新《論大數據證據》,《環球法律評論》2019年第1期,第28頁。。其二,深度學習算法是一類超多層神經網絡學習算法,其復雜性是大模型強黑箱效應的重要原因(23)張博倫《超越算法的黑箱想象》,《清華社會學評論》第18輯,社會科學文獻出版社2022年版,第152-153頁。。從證據角度看,深度學習算法的內在邏輯難以為一般人理解,比如ChatGPT的深度學習算法結合了Transformer架構、多頭注意力機制、自監督學習和語言模型預訓練等技術。鑒于深度學習算法對證據運用的要求超出一般人能力水平,本文認為其也較適合作為鑒定意見進入證明活動。

大語言模型是在海量數據上訓練得到的參數規模巨大的深度學習模型,其參數量一般在百億級以上,代表模型有Open AI的GPT-4、百度的文心一言和阿里的通義千問等。從證據角度看,大語言模型至少有以下值得關注的特點:其一,大語言模型是生成新內容而非簡單檢索,屬于深度合成技術(24)《互聯網信息服務深度合成管理規定》,國家互聯網信息辦公室、中華人民共和國工業和信息化部、中華人民共和國公安部令第12號,2022年11月25日公布,中國網信網,2022年12月11日發布,2023年5月23日訪問,http://www.cac.gov.cn/2022-12/11/c_1672221949354811.htm。;其二,程序員編寫的代碼是大語言模型的骨架,但決定大語言模型預測結果的還是機器學習算法學習到的參數,換言之,直接決定黑箱輸出結果的大模型的核心是參數而非代碼,因此,即使程序員也未必能理解大語言模型的“黑箱”;其三,大語言模型的黑箱效應極為顯著,但蘊含著大量人為因素,比如訓練數據的選取和深度學習算法的設計。因此,大語言模型由大量代碼構成且可解釋性差,與訓練數據和深度學習算法存在一定相似性,也較適合以鑒定意見的形式進入證明活動。

大語言模型是一種基礎性工具,軟件開發者可以將其集成到自己的應用中,形成功能豐富的產品(25)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國法律評論》2023年第2期,第2頁。。目前大語言模型產品主要包括ChatGPT、文心一言等聊天機器人,必應等搜索引擎,以及Copilot等辦公應用。大語言模型產品直接影響大語言模型材料的呈現,比如聊天機器人形成的大語言模型材料常以對話文本形式呈現,聯網大語言模型形成的材料則包含較豐富的網絡鏈接?，F階段,不同種類大語言模型產品形成的材料還沒有脫離“一問一答”的基礎文本形態,但未來大語言模型材料可能形態多樣甚至難以辨認。相應地,大語言模型材料的提取收集、固定保全、審查判斷都會面臨新的挑戰。

3.大語言模型運行環境信息

大語言模型需要強大算力的支持,比如微軟Azure云計算平臺是OpenAI運行和管理ChatGPT的重要基礎。但是大語言模型生成的內容與所部署的云計算平臺無關,云計算平臺主要影響到大語言模型產品運行的穩定性,比如云計算平臺的狀況和故障可能導致大語言模型的響應時間較長,或者無法正常運行。本文將云計算環境信息納入大語言模型材料是出于完整性考慮,但云計算環境對證據法視角下的大語言模型材料影響極為有限,因此云計算環境信息的證據價值不高。

使用者本地環境信息是指反映使用者操作大語言模型產品時的計算機或移動設備環境的信息,主要包括使用的日期、時間和地區,所用大語言模型的產品版本,計算機或移動設備的型號、操作系統和瀏覽器,互聯網協議地址(IP地址)等。使用者本地環境信息在證明活動中的作用主要有二:一是保障大語言模型材料的真實性,盡量避免人機對話材料被偽造或篡改;二是確定使用者的身份,大語言模型使用者和賬號所有者未必是同一人,因此需要結合使用者本地環境信息進行身份同一性判斷?？梢?使用者本地環境信息具有一定證據價值,且可以參照電子數據環境信息的相關程序規范進行收集和舉示,證據運用成本不高。

(四)大語言模型材料的類型化及其證據屬性

1.以反映“人類-機器意見”的程度為標準判斷其證據屬性

(1)“機器意見型”大語言模型材料

大語言模型可以對已經學習到的事物、事件,或使用者輸入的復雜內容進行分析,提出生成性的觀點和判斷?！皺C器意見型”大語言模型材料中體現了較多大語言模型的機器判斷,而使用者的人類意見較少得到體現,至少包括:其一,大語言模型對客觀事件、事物作判斷形成的材料,如使用者要求大語言模型對某家公司、某所高校、某項產品、某個歷史事件、社會事件等進行的判斷;其二,對使用者輸入的弱主觀性內容分析形成的、主要體現大語言模型意見的材料,如使用者要求大語言模型對其輸入學術文章所作的分析評價;其三,對輸入的復雜內容進行鑒定形成的材料,如使用者要求大語言模型審查書證可靠性形成的分析意見;其四,對輸入的復雜內容進行推理形成的材料,如案件偵辦人員輸入已經較確定的案件情況,大語言模型據此作出的案情推理。那么,“機器意見型”大語言模型材料能否成為證據呢?比如某公司在廣告中宣稱其產品全國知名,依據是大語言模型在對話中肯定該產品全國知名,那么相關大語言模型材料能否成為支撐其廣告行為合法性的依據?大語言模型基于海量訓練數據和深度學習算法產生,其“機器意見”有一定客觀性,與待證事實之間存在關聯性,因此“機器意見型”大語言模型材料可以在合法前提下作為證據使用。但是,大語言模型本身存在“幻覺”現象,而且使用者可以通過提示對大語言模型輸出的內容進行誤導。比如使用者可以先告訴大語言模型該產品全國知名,再進行提問,就能得到想要的回答。因此本文認為,“機器意見”型大語言模型材料可以成為證據,但對其客觀性和關聯性的審查需要格外謹慎。對“機器意見型”大語言模型材料的審查尤其要注意人機對話的上下文,排除使用者提示對機器意見的誘導。

(2)“人類-機器意見平衡型”大語言模型材料

此類材料指人類意見和機器意見對大語言模型生成材料發揮作用較為平衡的類型。在目前使用場景下,“人類-機器意見平衡型”大語言模型材料至少包括以下情形:其一,人機合作創造性工作形成的材料,以法律職業為例,GPT-4能夠通過美國模擬律師考試,并且分數位于應試者前10%左右(26)“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses,” OpenAI, updated March 15, 2023, accessed May 22, 2023, https://openai.com/product/gpt-4.,文心一言的法律能力有較大進步空間(27)根據筆者在2023年3月18日的測試,文心一言可以定位到《中華人民共和國民法典》部分具體條款,但會編造法條的條數和內容;它對《中華人民共和國刑法》了解得非?；\統,只到“章”;它對商法、公司法的掌握也比較籠統。但在適當和充分的提示下,文心一言對《中華人民共和國土地管理法》修改的情況作出了較為完善的描述和評價,甚至能對其中的土地征收程序修改情況進行描述和評價?？傮w而言,文心一言在法條檢索和法律咨詢上的表現不盡如人意,但充分恰當的提示可以提高它的回答質量。,兩者都無法完全取代律師在處理復雜案情和證據、調查取證等方面的作用,需要通過人機深度合作形成可用的工作成果;其二,對使用者輸入的強主觀性內容進行分析形成的材料,如案件偵辦人員將數份言詞證據輸入大語言模型材料,要求其梳理前后是否有矛盾之處,對涉及人員言論的可信度進行評估;其三,經使用者重要“提示”(Prompt)形成的材料,比如使用者在對話上文給出“某公司為知名企業、有良好商譽”的信息,能夠在大語言模型記憶范圍內影響其回答;其四,在強人機交互環境中形成的材料,大語言模型已經被計劃用于智能客服領域,由其形成的客戶服務記錄有較強的人機意見交換性,一般屬于“人類-機器意見平衡型”大語言模型材料?！叭祟?機器意見平衡型”大語言模型材料可以通過反映機器意見和人類意見發揮證據作用,這里的“平衡”不要求人機意見占比持平,而是一種基于人機交互復雜性的折中描述。以案件偵辦人員通過大語言模型分析言詞證據為例:言詞證據形成的過程和偵辦人員選取言詞證據的過程都含有較強主觀因素,體現的是人類意見;大語言模型分析言詞證據得出結論,體現的是機器意見。因此,審查“人類-機器意見平衡型”大語言模型材料時需要對機器意見和人類意見進行一定區分,根據具體案件需要排除人類意見或機器意見的干擾,抑或對兩種意見分別進行審查判斷。

(3)“人類意見型”大語言模型材料

一些大語言模型生成材料幾乎完全是對人類意見的反映,至少包括以下情形:其一,基于使用者提供的內容經簡單加工形成的材料,如不含藝術性的語言翻譯、文字語法校對、文章潤色等;其二,完全按照使用者要求生成的、基本不含機器意見的材料,如“網絡水軍”評論文本?！叭祟愐庖娦汀贝笳Z言模型材料在一定情況下可以成為證據,比如使用者通過大語言模型翻譯違法文章用于不當宣傳,通過大語言模型大量生成垃圾信息用于“網絡水軍”活動等。在這種情況下,大語言模型材料通過反映人類意見來證明案件事實,可以用來證明使用者行為的主觀方面。

2.以證明活動中的作用為標準判斷其證據屬性

(1)用于證明案件事實的大語言模型材料

“案件事實”是證據定義、證明對象等問題的核心概念之一,既往研究對“案件事實”的理解存在爭議,本文支持“案件事實就是實體法事實”的觀點,所稱“案件事實”即指對解決案件實體問題具有法律意義的事實(28)陳光中、周國鈞《論刑事訴訟中的證明對象》,《中國政法大學學報》1983年第3期,第58頁。。大語言模型材料可以在多種情況下對案件事實起證明作用:在著作權案件中,大語言模型材料可以證明通過大語言模型進行的改寫、抄襲等事實;在商業案件中,它可以證明大語言模型服務提供者在大語言模型對話中違規植入廣告、進行不良誘導等不當商業行為;在刑事案件中,它可以證明向大語言模型咨詢犯罪法律問題的犯罪嫌疑人主觀心態。在這些情況下,大語言模型材料能夠證明案件事實,具有作為證據的不可替代性,可以被稱為“大語言模型證據”。

(2)用于證據審查的大語言模型材料

大語言模型可以用來審查已經收集到的證據,尤其是書證、言詞證據等以文本內容發揮證明作用的證據。比如辦案人員可以將大量言詞證據輸入大語言模型,要求大語言模型梳理陳述中的前后矛盾。正如本文對“人工智能證據審查方法”和“人工智能證據”的區分,本文認為這種發揮證據審查作用的大語言模型材料也不宜稱為“大語言模型證據”(詳后)。對證明對象范圍最廣的理解是,證明對象包括實體法事實、程序法事實和證據事實(29)也有觀點主張不采用傳統證明對象范圍理論(區分實體法事實、程序法事實和證據事實),認為證明對象的范圍是訴辯雙方的訴訟主張。該理論與本文討論內容有一定距離,因此未作展開。參見:魯杰、曹福來《論證明對象的范圍是訴辯雙方的訴訟主張》,《政治與法律》2009年第1期,第128-132頁。:實體法事實指對解決案件實體問題具有法律意義的事實(30)陳光中、周國鈞《論刑事訴訟中的證明對象》,《中國政法大學學報》1983年第3期,第58頁。;程序法事實指引起訴訟法律關系發生、變更和消滅的事實,包括訴訟行為和訴訟事件(31)卞建林編《證據法學》,中國政法大學出版社2000年版,第279頁。;證據事實指證據提供的內容(32)陳光中、周國鈞《論刑事訴訟中的證明對象》,《中國政法大學學報》1983年第3期,第62頁。。20世紀90年代中期之后,我國訴訟法通說觀點基本認同證明對象范圍包括實體法事實和程序法事實,并大多否定訴訟證明對象中包括證據事實(33)閔春雷、劉銘《證明對象研究走向評析》,《吉林大學社會科學學報》2009年第2期,第48頁。。證據事實不屬于證明對象范圍的通說印證了“審查證據的方法不是證據”的觀點。本文認為,可以將通過大語言模型審查證據的方式稱作“大語言模型證據審查方法”,與“大語言模型證據”相區分。

(3)用于輔助案件調查的大語言模型材料

除了證明案件事實和證據事實,大語言模型材料還可以用于輔助案件調查。比如在刑事案件偵辦中,辦案人員可以將案件背景和收集到的證據情況輸入大語言模型,要求其推理、還原出可能的案件情況,甚至嘗試推理具備作案嫌疑的人。輔助案件偵查形成的大語言模型材料無法證明案件事實,只是拓寬使用者認識案件的思路,因此不屬于證據。

三大語言模型材料的證據資格和運用

(一)大語言模型材料和證據資格

大語言模型材料將深度廣泛地進入證明活動,那它能否成為證據?訴訟法學研究對證據的定義存在分歧,其中對我國立法影響較大的觀點主要有三種,分別是“事實說”、“根據說”和“材料說”(34)何家弘、劉品新《證據法學》,法律出版社2022年版,第118-120頁。。事實說認為證據是“證明案件真實情況的一切事實”,曾在研究中占主導地位(35)何家弘、劉品新《證據法學》,第118-119頁。,我國1979年《刑事訴訟法》采納這一觀點(36)《中華人民共和國刑事訴訟法》(1979年)第三十一條:“證明案件真實情況的一切事實,都是證據?！薄吨腥A人民共和國行政訴訟法》(1989年)和《中華人民共和國民事訴訟法》(1991年)未對“證據”作定義:《行政訴訟法》(1989年)第三十一條對證據種類進行列舉,規定“以上證據經法庭審查屬實,才能作為定案的根據”;《民事訴訟法》(1991年)第六十三條對證據種類進行列舉,規定“以上證據必須查證屬實,才能作為認定事實的根據”。。根據說認為“證據是查明和確定案件真實情況的根據”,代表學者有陳一云、龍宗智、何家弘、劉品新等(37)陳一云、王新清、嚴端編《證據學》,中國人民大學出版社2013年版,第3頁;龍宗智《訴訟證據論》,法律出版社2021年版,第8頁;何家弘、劉品新《證據法學》,第119、121頁。,《最高人民法院關于貫徹執行〈民事訴訟法(試行)〉若干問題的意見》采納這一觀點(38)《最高人民法院關于貫徹執行〈民事訴訟法(試行)〉若干問題的意見》(已廢止),[1984]法辦字第112號。其中第四節“證據問題”規定:“證據是查明和確定案件真實情況的根據?！?。材料說認為證據是“可以用于證明案件事實的材料”(39)龍宗智的觀點部分體現了證據的材料說:“具體的證據,是指承載證據信息(事實與意見),而以特定形式表現出來的證明材料?！眳⒁?龍宗智《訴訟證據論》,第8頁。,以2012年《刑事訴訟法》修改的采納為標志,材料說成為我國證據定義的主流觀點(40)《中華人民共和國刑事訴訟法》(2012年修正)第四十八條:“可以用于證明案件事實的材料,都是證據?！?。本文從我國現行立法出發,認為證據是可用于證明案件事實的材料。大語言模型材料證明案件事實的情形至少包括:證明通過大語言模型產品進行的不當行為(如不當廣告行為、“網絡水軍”行為),證明咨詢犯罪問題的犯罪嫌疑人的主觀心態,等等。因此,大語言模型材料可以成為證據。

大語言模型證據能否在證明活動中被采納?這是證據資格的問題,研究中常見的“證據能力”(41)“證據能力,是指能夠成為證據的資格?！眳⒁?田口守一《刑事訴訟法》,張凌、于秀峰譯,法律出版社2019年版,第437頁。、“證人能力”、“證據的采納標準”等描述的都是證據資格(42)林志毅《論刑事證據資格之多重性》,《中國法學》2022年第1期,第263頁。。大陸法系常采用證據資格(Competency of Evidence)、證據能力概念,英美法系中則表述為證據的可采性(Admissibility of Evidence)(43)參見:田口守一《刑事訴訟法》,第438頁;何家弘、劉品新《證據法學》,第124-125頁。。證據資格的內容在不同證明活動中、面對不同的證據形式時有所不同,基本內容包括客觀性、關聯性和合法性。首先,客觀性是指證據應當具有客觀存在性,包括證據在內容上是對客觀事物的反映,在形式上是一種客觀存在,能夠被人通過某種方式感知(44)何家弘、劉品新《證據法學》,第124-128頁。。在內容上,大語言模型材料能夠反映以使用者行為為代表的多種客觀事物;在形式上,大語言模型材料中的人機交流材料能被人直觀感知,本體材料和使用環境信息也能通過鑒定和技術公司公開為人感知。其次,關聯性是指證據必須與待證事實存在聯系。大語言模型材料深入社會生活,能夠在民事、刑事、行政等多種場景下與案件事實相聯系,因此具備關聯性。最后,合法性是指證據的調查主體、形式、收集程序或提取方法應符合法律規定。證據是否需要具有合法性在研究中有較大爭議,何家弘認為該爭議的存在是由于證據概念與證據資格發生混淆:合法性是證據資格的考量因素,經非法主體、形式、程序得到的材料依然可以是證據,只是不一定能在證明活動中被采納(45)何家弘、劉品新《證據法學》,第128-132頁。。本文認同這一觀點,盡管大語言模型材料的取證主體、證據形式和取證程序尚無法律依據,但這并不影響其成為證據,只影響其在證明活動中能否被采納。

綜上,大語言模型材料可以成為證據出現在證明活動中。由于大語言模型證據在一些情況下能夠證明案件事實,具有真實性,本文認為通過完善法律,它也具有證據資格。

(二)大語言模型證據和相關類型證據比較

1.大數據證據和大語言模型證據

大語言模型是人工智能領域中自然語言處理的前沿成果,與大數據技術密切相關。人工智能的發展基于大量數據,而大數據技術的分布式存儲和分布式計算為人工智能提供了強大的存儲和計算能力(46)林子雨編著《大數據導論——數據思維、數據能力和數據倫理》,高等教育出版社2020年版,第54-55頁。。大數據證據和大語言模型證據都隨前沿技術發展產生,面臨著相似的黑箱質疑、證據資格問題和證據種類問題,兩者也存在區別。第一,在技術基礎上,大數據技術的重心在于對海量數據的處理和對相關性關系的發掘,是一種“尋找結果”的傳統計算;而大語言模型屬于人工智能技術,是一種“允許機器執行認知功能”的計算方法,目的在于輔助或者替代人類完成某些任務,進行某些決定(47)林子雨編著《大數據導論——數據思維、數據能力和數據倫理》,第55頁。。第二,在具體內容上,大數據證據由海量基礎數據、大數據分析技術和大數據分析結果組成(48)嚴若冰《以定義為中心的大數據證據獨立種類研究》,《山東警察學院學報》2020年第5期,第87-89頁。;最完整的大語言模型證據由人機交流材料、大語言模型本體材料和運行環境信息組成。第三,在運用難度上,大數據證據在證明活動中一般以大數據分析報告、說明報告或鑒定意見的形式呈現,有一定專業門檻;大語言模型證據或多以人機交流材料(如對話文本)形式呈現,運用難度相對較小。

大數據證據已經在司法裁判中得到運用,法律實務和學術研究均認可其證據資格,但在證據種類問題上存在分歧。在司法實踐中有將大數據證據歸為鑒定意見、電子數據、書證、證人證言,甚至是將其作為“偵破經過”或“情況說明”的做法(49)嚴若冰《以定義為中心的大數據證據獨立種類研究》,《山東警察學院學報》2020年第5期,第80-91頁。;學術上對大數據證據的種類有納入鑒定意見(50)劉品新《論大數據證據》,《環球法律評論》2019年第1期,第28頁。、獨立類型(51)徐惠、李曉東《大數據證據之證據屬性證成研究》,《中國人民公安大學學報(社會科學版)》2020年第1期,第47-57頁。等不同看法。本文認為大數據證據有別于傳統證據種類,但是不宜作為“大數據證據”進入立法。證據分類應當實現識別、適用和交往的基本功能(52)識別性指分類能將某類證據與其他證據進行有效區分,適用性是指證據分類有助于適用證據規則,交往性即普遍性,是指證據分類獲得普遍認可,因此便利交流與交往。參見:龍宗智《訴訟證據論》,第44頁。,而“大數據證據”這一分類未必具有交往性(即普遍性)。隨著技術發展不能被歸入法定證據種類的新技術證據只會越來越多,比如我們正在討論的大語言模型證據(53)嚴若冰《以定義為中心的大數據證據獨立種類研究》,《山東警察學院學報》2020年第5期,第80-91頁。。有學者認為,鑒于法定證據種類在面對新技術證據時存在的困難,應該放棄將證據種類作為證據門檻的做法(54)鄭飛、馬國洋《大數據證據適用的三重困境及出路》,《重慶大學學報(社會科學版)》2022年第3期,第207-218頁。。本文支持這一觀點,證據資格才是“證據門檻”,證據種類是我們認識證據的工具?？梢钥吹?大數據證據在證據種類上的混亂并未影響它在司法實踐中被廣泛運用,大語言模型證據或許也將走上類似的道路。

2.人工智能證據和大語言模型證據

大語言模型證據屬于人工智能證據,但是人工智能技術有多種研究方向,比如知識圖譜和大語言模型是兩種完全不同的方案。因此,人工智能證據研究成果難以套用到大語言模型證據上,卻可以成為理論來源和重要參考。人工智能證據研究在刑事訴訟領域和民事訴訟領域都已展開,但現有研究存在將“人工智能證據審查方法”和“人工智能證據”混用的情況,這與謝登科等指出的“電子數據區塊鏈存證”與“區塊鏈證據”混用的情況具有一定相似性(55)謝登科、張赫《電子數據區塊鏈存證的理論反思》,《重慶大學學報(社會科學版)》2022年12月20日網絡首發,第1-14頁,http://kns.cnki.net/kcms/detail/50.1023.c.20221219.1201.001.html。。有文章舉例的“人工智能證據”是人臉識別系統分析結論,該分析結論在訴訟中被用來證明特定照片上的人是特定某人(56)馬國洋《論刑事訴訟中人工智能證據的審查》,《中國刑事法雜志》2021年第5期,第158頁。。本文認為該例子不一定妥當,人臉識別系統分析結論在訴訟中起到的是補強書證(即本案中照片)的作用,是作為輔助證據(或稱補助證據)用來證明證據事實的(57)陳光中、周國鈞《論刑事訴訟中的證明對象》,《中國政法大學學報》1983年第3期,第58-64頁;田口守一《刑事訴訟法》,第438-439頁。。用人工智能方法對其他證據進行審查判斷形成的材料或不宜稱為“人工智能證據”,可以將這種方法稱為“人工智能證據審查方法”。

可能會有這樣的反對意見:驗證其他證據形成的人工智能材料也與案件事實相關,所以是“人工智能證據”。本文認為該觀點有一定道理,而且符合司法實踐和通常認識,但尚有可商榷之處。在區塊鏈證據領域,“區塊鏈證據”和“電子數據區塊鏈存證”的混用已經較為普遍,有文章指出了既往研究中存在的混用情況及其給研究帶來的困難(58)謝登科、張赫《電子數據區塊鏈存證的理論反思》,《重慶大學學報(社會科學版)》2022年12月20日網絡首發,第1-14頁,http://kns.cnki.net/kcms/detail/50.1023.c.20221219.1201.001.html。。人工智能證據研究尚處初期,厘清概念有助于今后研究的順利開展,因此本文更傾向于區分“人工智能證據”和“人工智能證據審查方法”。比較符合這一“人工智能證據”定義的有金融領域的智能投顧材料(59)徐鳳《人工智能算法黑箱的法律規制——以智能投顧為例展開》,《東方法學》2019年第6期,第83-86頁。,由AI繪畫工具生成的AI繪畫作品,由AI語音工具生成的AI翻唱作品,以及大語言模型證據等。

(三)大語言模型材料的運用場景

1.民事法律證明場景中的大語言模型材料

民事領域或將是各法律部門中最早出現大語言模型材料的。大語言模型通過廣告營利的商業模式幾乎是板上釘釘,其中蘊含著法律風險。大語言模型以一問一答的形式向使用者提供意見,使用者省去了在搜索引擎中篩選信息的過程,但這種“不必選擇”也意味著“難以選擇”和“易被誤導”。如果大語言模型在對話過程中推薦商業廣告,用戶甚至可能意識不到廣告存在,這種廣告在涉及醫療、法律服務等敏感行業時會更具危險性(60)如曾經發生過莆田系醫院通過商業競價在百度搜索結果中投放廣告,患者通過廣告被引導到莆田系醫院就醫導致治療延誤的事件。參見:張燕《揭“莆田系”醫院盈利秘密》,《中國經濟周刊》2016年第19期,第24-26頁。。

據路透社報道,微軟已經在嘗試向搭載GPT-4的必應搜索引擎中加入廣告,比如在機器回復中提供付費鏈接(61)Sheila Dang, “Exclusive: Microsoft’s Bing plans AI ads in early pitch to advertisers,” Reuters News, updated February 18, 2023, accessed May 22, 2023, https://www.reuters.com/technology/microsofts-bing-plans-ai-ads-early-pitch-advertisers-2023-02-17/.。又以文心一言為例,大模型的實現和維持依賴強算法和大算力,這意味著文心一言在開發階段就消耗了巨量資源,且后續業務開展需要以大量資金投入為保障。廣告業務是百度公司的重要收入來源,百度2022年第四季度的在線營銷收入(Online Marketing Revenue)為人民幣181億元,占該季度營收(331億元)的54.68%(62)“Baidu Announces Fourth Quarter and Fiscal Year 2022 Results,” Baidu IR, updated February 22, 2023, accessed May 22, 2023, https://ir.baidu.com/investor-overview/.。文心一言作為國內推出的第一款大語言模型炙手可熱,承接廣告業務的經濟效益相當可觀。大語言模型的技術復雜性使其較難受到外界有效監督,且法律本身存在滯后性,但法律人對大語言模型的民商事合規風險應有一定預見和警惕。

2.刑事法律證明場景中的大語言模型材料

一項新技術出現后,社會群體內接受新技術的速度和能力不同,由此帶來的信息差將讓犯罪分子有機可乘。大語言模型以假亂真的對話能力可能被用于違法犯罪活動中,比如“網絡水軍”活動和電信詐騙犯罪。以“網絡水軍”為例,目前“水軍”在互聯網上的發言較為生硬,辨識難度不高。但大語言模型可以高效編寫大量自然流暢的虛假文案,提高“水軍”活動的效率,增強了違法犯罪的隱蔽性和危害性。又以詐騙案件為例,在以婚戀為誘餌的“殺豬盤”騙局中,犯罪嫌疑人或可用大語言模型聊天機器人和受害者進行對話“培養感情”,降低犯罪成本。在這些情況下,使用者與大語言模型交流形成的材料將成為證明案件事實的證據。

除了直接證明案件事實,大語言模型材料在刑事活動中還可以作為破案線索,或是審查其他證據的輔助證據。比如在案件偵破階段,警方可以將已經搜集到的案件信息和經過確認的部分證據輸入大語言模型,要求其推理出案件最有可能的幾種情況,以此拓寬辦案思路。對于待初步審查的書證、言詞證據,警方可以將證據文本內容和搜集該證據的相關情況輸入大語言模型,要求其梳理案件中的人物關系和主要情節,進行內容、程序上的審查。作為破案線索和輔助證據的大語言模型材料雖然可靠性不一定高,但是在保證算法公正的前提下具有較高公正性,有助于提高辦案效率。

3.行政法律證明場景中的大語言模型材料

根據數字政府建設和2023年國務院機構改革體現的發展方向,我國在政府領域引入大語言模型或許只是時間問題。一方面,數字化智能化是我國政府發展的重要方向,“十四五”規劃中明確要求“全面推進政府運行方式、業務流程和服務模式數字化智能化”(63)《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》,中國政府網,2021年3月13日發布,2023年5月29日訪問,https://www.gov.cn/xinwen/2021-03/13/content_5592681.htm。,2022年,《國務院關于加強數字政府建設的指導意見》提出“構建數字化、智能化的政府運行新形態”。另一方面,2023年國務院機構改革方案要求“中央國家機關各部門人員編制將統一按照5%的比例進行精減”(64)肖捷《關于國務院機構改革方案的說明——2023年3月7日在第十四屆全國人民代表大會第一次會議上》,中國政府網,2023年3月8日發布,2023年5月23日訪問,http://www.gov.cn/guowuyuan/2023-03/08/content_5745356.htm。,在安全可靠的前提下將大語言模型引入政府工作將是精簡編制、集中編制資源攻克重點問題的合理方案。極為強調安全性的國內銀行業已經開始“擁抱”大語言模型,文心一言將在銀行的客服、風控、投研、營銷等領域開展應用(65)李海顏《牽手百度多家銀行尋求中國版ChatGPT新應用》,《北京商報》2023年2月28日,第7版。,如果文心一言能夠實現令人較為滿意的對話和文本生成能力,這些銀行的職位需求將相應減少。

文心一言已經與一些政府部門、國有企業和事業單位達成合作,如工信部新聞宣傳中心(66)趙樂瑄《工信部新聞宣傳中心(人民郵電報社)宣布接入百度文心一言樹立行業媒體智能化新標桿》,中國工信產業網,2023年2月14日發布,2023年5月23日訪問,https://www.cnii.com.cn/rmydb/202302/t20230214_446697.html。、郵儲銀行(67)《郵儲銀行宣布接入百度“文心一言” 提供更智能更有溫度的金融服務》,中國郵政集團有限公司網站,2023年2月18日發布,2023年5月23日訪問,http://www.cptu.org.cn/xhtml1/report/23021/7167-1.htm。,大語言模型進入行政領域或不遙遠。從大語言模型目前的應用來看,它對外可以受理業務投訴、為群眾提供咨詢服務、參與網絡行政執法,甚至進行自動化的行政許可形式審批(68)GPT-4已經能夠對輸入的文本和圖像進行分析,如果未來該類技術更加成熟且能保證安全性,或可用于自動化行政許可形式審查,甚至能實現一定程度的實質審查。;對內可以成為每一位行政機關工作人員的“私人助手”,處理重復性和日常性較高、非核心機要的文書工作,提供政策和決定咨詢。我國基層公務員的工作負擔中有相當一部分是重復繁瑣的文書工作,如果能在保證意思準確、不影響工作質量的前提下引入大語言模型,將有助于解放基層勞動力。當政務活動中開始應用大語言模型技術,大語言模型材料也將邁入行政程序活動、行政復議和行政訴訟領域。

(四)司法實踐中大語言模型證據的運用

證據在實踐中的表現形式可能與法律規范要求的并不相同,非常典型的例子是民事訴訟中的電子證據,尤其是在網絡交易型證明活動中。有學者指出,網絡交易型訴訟的證明活動高度依賴電子證據,但在實踐中原告舉示的電子證據常常以截圖、打印稿的形式呈現(69)比如在一起食品網絡交易訴訟中,原告提供了4項電子證據,分別是網頁商品快照打印件、網頁訂單詳情截圖打印件、快遞單打印件、電子支付賬單詳情截圖打印件。參見:周翔《論電子證據的偏在性及其克服》,《大連理工大學學報(社會科學版)》2020年第1期,第92頁。。這在一定程度上是因為此類案件中的電子證據偏在于互聯網平臺,但足以反映出證據實踐表現形式與法律規定之間的落差。結合電子數據和大數據證據在實踐中的舉證狀況,本文對大語言模型證據在訴訟證明活動的運用進行如下猜測:一方面,大語言模型證據舉示方出于成本效率的考量,或將以截圖、打印稿的形式對人機交流材料進行舉證;另一方面,質證方將從大語言模型的算法公正性(黑箱效應),大語言模型材料的完整性,賬號所有者與人機交流者身份的同一性等角度質疑人機交流材料;同時,被質證的一方可以通過大語言模型黑箱屬性的固有性和極高昂成本對抗黑箱質疑,通過充分舉示人機交流材料、大語言模型本體材料和大語言模型運行環境信息對抗完整性質疑,通過舉示使用者運行環境信息對抗身份同一性質疑。

從證明活動效率考慮,本文認為,一般案件可以僅舉示人機交流材料和使用者本地環境信息,重大案件才需要對人機交流材料、大語言模型本體材料和大語言模型運行環境信息作完整舉示。一方面,從成本上看,大語言模型黑箱效應突出,本體材料和云計算環境信息的提取和審查有較高門檻,對相關人員專業能力要求極高;另一方面,從與待證事實的關聯性來看,大語言模型訓練和運行的成本極高,為實施普通違法犯罪行為故意調整大語言模型的可能性較小,云計算環境一般不影響大語言模型生成的內容,因此大語言模型本體和云計算環境與一般案件事實的關聯性不強。而人機交流材料和使用者本地環境信息與案件事實的聯系緊密,且運用難度較小,因此本文支持在一般案件中將人機交流材料和使用者本地環境信息認定為完整的大語言模型證據。

四大語言模型材料作為證據的特點

(一)直觀性強:人機交流材料能夠被人類直觀感知

人機交流材料呈現為一問一答的連續人機對話,這種直觀性使大語言模型證據與需要鑒定的科學證據形成區別。人機交流材料的形成過程處于極強黑箱效應中,但我們并非一定要通過司法鑒定打開這個黑箱。一方面,對人機交流材料形成過程的探究需要對大語言模型本身進行分析,鑒定成本較難得到有效控制;另一方面,大語言模型的形成和運行需要巨額資金投入,黑箱內部與普通個案的關聯性不強。因此,本文認為,強行要求對人機交流材料進行鑒定將極大提高訴訟成本,缺少必要性。人機交流材料可以憑借其直觀易理解的優勢,參照互聯網聊天記錄、網頁信息進行舉證質證。從成本效益上看,人機交流材料最有可能成為未來訴訟活動中大語言模型證據的表現形式。

在收集提取人機交流材料時,當事人應盡可能保證材料的可鏈接性和真實性。人機交流材料目前多以瀏覽器網頁為載體,且缺少規范便捷的證據提取收集方法,存在偽造、篡改的可能性。比如在Chrome瀏覽器中打開網頁、按F12進入開發者工具,可以通過修改網頁元素(Elements)來改變網頁呈現內容。在司法實踐中運用大語言模型材料可注意以下兩點:第一,保留原始材料,使審判人員和其他訴訟參與人能夠通過網絡鏈接查閱到人機交流材料原件;第二,在提取過程中進行屏幕錄像,并對提取到的網頁文件計算哈希值(70)孫百昌《網頁取證網頁電子數據證據獲取固定步驟與方法(2022)》,中國工商出版社2022年版,第156-175頁。,或者通過司法區塊鏈工具將相關網頁信息以鏈上數據的形式進行保全。

(二)可解釋性弱:不等于大語言模型證據可靠性弱

可解釋性的定義存在爭議,涉及到認知科學、計算機科學、心理學和哲學等領域(71)Roberto Confalonieri, Ludovik Coba et al., “A Historical Perspective of Explainable Artificial Intelligence,” Wires Data Mining and Knowledge Discovery 11, no.1 (January/February 2021) : 2-4.。本文中人工智能的可解釋性指人類對人工智能自動決策的理解,包括人工智能自動決策的原因、方法和內容等。大語言模型屬于深度學習模型,可解釋性弱是其目前最為人詬病的特征之一。深度學習模型的黑箱程度高于社會主流觀點對算法黑箱的認識。有社會學者指出,算法黑箱問題常被歸結到“專業知識”和“透明度”上,許多觀點認為只要人類具有關于算法的專業知識而且能夠接觸到相應代碼,就能夠“探查到算法的社會影響,消除存在于其中的可能的偏見”。但深度學習模型的黑箱與傳統“算法想象”對黑箱的理解不同,黑箱是深度學習模型的固有特征,它不僅對用戶來說是一個黑箱,甚至對開發它的程序員和公司來說也是如此(72)“算法想象”是張博倫提出的概念,指社會對算法的一般認識。參見:張博倫《超越算法的黑箱想象》,《清華社會學評論》第18輯,第152-153頁。。

大語言模型的可解釋性弱不僅表現在與主流黑箱認識的對比上,還表現在與知識圖譜和小模型等其他人工智能技術的對比上。知識圖譜由一系列包含實體和關系的事實組成,直觀可見,因此具有強可解釋性。與小模型相比,大模型不僅有更龐大的參數量,還具有涌現能力(Emergent Abilities)。涌現性(Emergence)是指系統中數量性的變化引起了行為上性質的變化,可以理解為量變引起質變。大語言模型的涌現能力則是指當模型的訓練量到達一定程度,就會有新的推理結構在神經網絡中自發涌現,使其精準度得到大幅提升。這種涌現能力基于大量數據和強大計算能力,是較小模型所不具備的(73)Roberto Confalonieri, Ludovik Coba et al., “A Historical Perspective of Explainable Artificial Intelligence,” Wires Data Mining and Knowledge Discovery 11, no.1 (January/February 2021) : 2-4.。涌現能力意味著,大語言模型在程序員設計框架之外擁有非人為設計的能力,機器決策不能被完全預測,故可解釋性難以得到保障。

大語言模型的可解釋性弱決定了大語言模型材料的可解釋性弱。盡管人機交流材料的內容直觀可見,但我們難以認識大語言模型理解用戶輸入材料、生成輸出材料的過程。此外,部分大語言模型材料由于客觀原因并不在我國境內存儲,我國在大語言模型技術方面與國際最先進水平仍存在客觀差距。一些國內用戶使用ChatGPT等國外大語言模型產品輔助工作,提高效率。對于這部分在國內使用、但由國外大語言模型生成且存儲在國外的材料,如何進行收集、保存和審查,或將成為我們在技術和國際關系上需要面臨的挑戰。

大語言模型材料的可解釋性弱,并不意味著大語言模型證據的可靠性弱。一方面,人機交流材料與電子數據相似,它可以通過可鏈接性來保障真實性,并且適宜通過司法區塊鏈和公證的方法進行存證,較適應現行電子數據保全框架。另一方面,大語言模型本體材料和大語言模型云計算環境信息被“封裝”在黑箱中,一般不影響大語言模型材料對具體案件事實的反映。對于確有必要進行舉示的大語言模型本體材料和大語言模型云計算環境信息,也可以通過司法鑒定、以鑒定意見的形式進行舉示。因此,大語言模型證據有能力反映一定案件事實,在訴訟證明活動中具有可靠性。

(三)偏在性:部分材料僅由少數技術公司掌握

證據偏在現象是指負有證明責任的一方無法掌握相應證據,因而難以履行證明責任,面臨敗訴風險。證據偏在問題產生于20世紀初的現代型訴訟,如醫療案件里醫院和醫生掌握患者病歷?，F代型訴訟的證據偏在問題未脫離訴訟雙方,但隨著互聯網興起和平臺經濟發展,電子證據常由互聯網平臺掌握,即電子證據常偏在于控辯雙方之外的互聯網平臺(74)周翔《論電子證據的偏在性及其克服》,《大連理工大學學報(社會科學版)》2020年第1期,第94-96頁。。大語言模型證據的偏在與互聯網平臺案件中電子證據的偏在有一定相似性,部分大語言模型證據僅由少數技術公司掌握。在大語言模型技術存在國家和地區間差距的情況下,這種證據偏在的狀況還可能涉及到國際關系問題。OpenAI會收集用戶使用ChatGPT服務時的各種信息,且OpenAI未在中國大陸正式開展服務,我國使用者作為海外用戶被收集的各類信息均存儲在美國(75)“Privacy Policy,” OpenAI, updated April 27, 2023, accessed May 23, 2023, https://openai.com/policies/privacy-policy.,這意味著我國司法機關獲取ChatGPT生成材料的難度極大。

大語言模型證據偏在和互聯網時代的電子證據偏在有一定相似性,因此也可以參考各國應對互聯網時代電子證據偏在的方案。歐陸模式以證明責任減輕理論為核心,在法官主導證據調查的傳統下展開訴訟證明活動;英美模式采取證據開示,堅持由當事人收集證據。我國立法與歐陸模式較為一致,但有觀點指出這一方案正越發難以回應互聯網平臺壟斷電子數據的問題,認為我國可以適當借鑒英美法系,適時提出網絡平臺的信息公開義務(76)周翔《論電子證據的偏在性及其克服》,《大連理工大學學報(社會科學版)》2020年第1期,第91-102頁。。

本文更支持借鑒英美的證據開示模式,如果繼續按照歐陸的證明責任減輕模式,我國法官將主導對大語言模型材料,尤其是本體材料和云計算服務信息的調查。但一般法官并不具備相應技術能力,加之法官群體工作量普遍較大,這樣的制度設計難以發揮作用。而另一方面,大語言模型材料和相關專業知識均由技術公司掌握,根據百度公司的《文心一言(測試版)個人信息保護規則》和OpenAI公司的個人隱私政策,這些主要技術公司掌握著包括人機交流材料、大語言模型本體材料和大語言模型運行環境信息在內,所有可能被作為證據運用的大語言模型材料。因此本文認為,可以借鑒英美法系的電子數據證據開示制度,明確科技公司作為社會信息壟斷者的證據開示義務。

(四)可識別性弱:大語言模型與深度合成治理

本文提出的大語言模型材料“可識別性”指人類能否識別一份材料是由大語言模型生成的,主要在于人機交流材料的可識別性。ChatGPT在對話時相當流暢自然,以至于能夠讓使用者感覺像與一名真正的人在對話?；ヂ摼W上常有關于ChatGPT能否通過“圖靈測試”的討論(77)Alan M. Turing, “Computing Machinery and Intelligence,” Mind 59, Issue 236 (October 1950): 433-460.,雖然該問題尚無定論,但應該能夠達成共識的是,當人類在不知情狀態下與類ChatGPT水平的大語言模型對話,他有相當概率無法正確判斷與其對話的是人類還是機器。也就是說,人類在缺少明確信息的情況下,未必能識別一份文本材料是否屬于大語言模型的人機交流材料。該問題在刑事偵查階段會影響案件調查的方向,影響案件性質和涉案主體的確定,在訴訟階段也是庭審舉證質證中難以回避的問題。它在民事領域也有一定影響,比如消費者要求與商家的真人客服進行溝通,能否有效判斷對方提供的是大語言模型聊天機器人還是人類客服。

大語言模型屬于深度合成技術,從理論上看,大語言模型材料的可識別性問題可以通過深度合成治理得到緩解。我國的深度合成治理立法走在世界前列,2023年1月開始實施的《互聯網信息服務深度合成管理規定》要求深度合成服務提供者應當在“生成或者編輯的信息內容的合理位置、區域”進行顯著的深度合成標識,避免公眾混淆或者誤認(78)參見:《互聯網信息服務深度合成管理規定》,國家互聯網信息辦公室、中華人民共和國工業和信息化部、中華人民共和國公安部令第12號,2022年11月25日公布,中國網信網,2022年12月11日發布,2023年5月23日訪問,http://www.cac.gov.cn/2022-12/11/c.1672221949354811.htm;張凌寒《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國路徑》,《法律科學(西北政法大學學報)》2023年第3期,第39頁。。目前ChatGPT和文心一言在對話中都會強調自己作為大語言模型的身份,這在某種程度上符合我國立法關于深度合成標識的要求。

但在實踐層面,深度合成標識相關規定未得到充分落實:深度合成服務提供者未充分遵守立法關于深度合成標識的規定,且深度合成標識難以約束深度合成服務使用者的不當利用。一方面,從深度合成服務提供者的角度來看,筆者通過百度文心一格(AI繪圖工具)生成了四張圖片,成品圖片上并無人類可以感知的深度合成標識,這是當前深度合成服務的普遍狀況。另一方面,從深度合成服務使用者的角度來看,運用和傳播無深度合成標識的AIGC內容也相當普遍,且管理部門對此缺乏有效識別和規范手段,如目前互聯網內容平臺上充斥著由AI配音但未加標注的視頻,以及由AI繪圖生成的圖片(甚至包括為數眾多能夠以假亂真的“虛擬人類”圖片)。

國家網信辦在2023年4月11日發布的《生成式人工智能服務管理辦法(征求意見稿)》體現了國家對大語言模型運用的態度:生成式人工智能服務提供者應當指導用戶合理利用相關服務,對利用過程中違反法律法規、商業道德或社會公德的用戶暫?；蚪K止服務?；谏疃群铣傻牧⒎ìF狀和生成式人工智能的立法方向,本文認為可以考慮增設以下規定:第一,強調大語言模型的深度合成屬性,使大語言模型運用與我國現行的深度合成治理規范相銜接,明確大語言模型和大語言模型產品適用于有關深度合成的法律法規;第二,要求應用大語言模型技術的產品至少在交互界面和生成文本中充分、明確地強調其大語言模型身份,并提醒用戶合理合法地使用大語言模型產品;第三,使用大語言模型產品代替其進行對外交往的機構或個人應當表明其正在使用大語言模型產品,否則將承擔不利法律后果。

致謝：本文在撰寫過程中得到許多專業人士和同學的幫助,王鈺薇女士對游戲行業AIGC使用情況給予了指導,李琳婕女士就“大語言模型材料的運用場景”部分與筆者進行討論,柏林洪堡大學(Humboldt-Universitaet zu Berlin)蘇泓宇同學對金融行業相關情況給予了指導,北京航空航天大學張雪峰同學,西湖大學高文煬同學,清華大學李思磐同學、邱浩先生、李嵐皓先生在大語言模型、云計算、知識圖譜等方面進行了技術指導。在此向他們表示衷心的感謝!

論大語言模型材料的證據屬性——以ChatGPT和文心一言為例

一 新型大語言模型材料必將廣泛運用于法治實踐

二 大語言模型材料的定義、技術、內容和類型化