?

檔案鑒定與人工智能:將來,如何以及是誰在言說歷史

2021-08-11 17:53洪佳惠
檔案管理 2021年4期
關鍵詞:黑盒子專家系統機器學習

洪佳惠

摘 要:將人工智能應用于檔案鑒定就是要構建一個具備機器學習能力的檔案鑒定專家系統,但該人工智能系統與人腦的差異、“黑盒子”及不確定性令人們暫時無法放心地將檔案鑒定工作交給它。由是,改變檔案鑒定的理念或許是一條可行的進路,即依靠人工智能實現的鑒定不再掌握檔案的生殺大權,只令其在系統中進行虛擬的價值鑒定,而不在物理意義上進行銷毀鑒定。對于檔案鑒定專家系統所依賴的全局數據庫應盡數保留,對鑒定無用的檔案也應一并存入全局數據庫進行保存。對于檔案中保存的史實,一時代有一時代之觀點,一時代的人工智能亦有一時代之“偏見”,只要盡可能多的全局數據被保存,人類的視域也就被最大程度地保留了下來,這可能是目前人的歷史不被機器言說所取代的唯一途徑。

關鍵詞:檔案宏觀鑒定;專家系統;機器學習;黑盒子;單向度的人

在國內,2019 年召開的中國檔案學會檔案學基礎理論學術委員會學術年會暨第一屆檔案創新論壇上,一款檔案專業“黑科技”——訊飛檔案機在會場中應用,該智能產品為口述歷史檔案的整理、重大活動的全面記錄歸檔提供了解決方案;在國外,梵蒂岡機密檔案館使用人工智能技術對館藏的35000卷使用古拉丁文書寫的檔案進行處理和解密,韓國的翻譯機構使用人工智能技術對本國古代文獻進行翻譯……人工智能不斷變革著現代檔案工作的信息保管和處理方式,使得檔案中蘊藏的巨大信息能量得以被進一步發現和挖掘。

然而,檔案工作者顯然不只是想利用人工智能技術來獲取更多信息,而更想利用這項新科技從繁重的日常工作中解脫出來,并解決工作中的難點,檔案鑒定即是這當中一項既繁瑣又困難重重的工作,亟待人工智能提供解決方案。

1 綜述

1.1 內涵。國際檔案理事會1984年出版的《檔案術語詞典》中對檔案鑒定是如此定義的:“根據文件的檔案價值來決定如何對其進行最后處理的檔案工作基本職能,也稱為評價、審查、選擇或選留?!盵1]這個判斷句對“文件的檔案價值”的表述不甚清晰,或許正因為此,各國對此都作了細化的描述。

在我國,《中國大百科全書》(檔案學分冊)中,鑒定工作被描述為“甄別檔案文件的現實價值和歷史價值,進行存毀處置的一項檔案業務工作”。[2]而高等學校檔案專業通行教材《檔案管理學》[3]中則對檔案鑒定作了更為細致的描述,且對檔案鑒定和檔案價值鑒定作了區分:“檔案鑒定一般是指區別于判定檔案真偽和檔案價值的鑒定,……。簡單地說,就是判定檔案價值、決定檔案存毀(生存死亡)的工作?!?/p>

從以上三個定義來看,鑒定工作掌握著檔案的“生殺大權”,且穿插于整個檔案管理工作中,而并非通常所理解的僅僅是在銷毀環節發生作用?!拔募B續體框架下的每一次檔案‘挑選活動似乎都可以被歸入檔案鑒定范疇?!盵4]從文檔一體的角度來看,檔案收集人員甫一接觸文件,鑒定工作就開始了,因為盡管“文檔一體”,但并非所有的“文”都能成為“檔”,就目前而言,能成為“檔”的“文”僅是非常有限的一部分。由是,在整個檔案管理工作中,依據一定的原則、標準和方法來決定檔案的存毀,這就是人工智能應用于檔案鑒定所指向的工作內涵。

1.2 外延。檔案鑒定的定義明確顯示,這項工作需要“依據一定的原則、標準和方法”,這個“原則、標準和方法”在我國一般被簡化為諸如《機關文件材料歸檔范圍和文書檔案保管期限規定》之類的行政文件。無可否認,這確實為檔案鑒定的實際工作提供了切實的依據,但由于人類經驗的多樣性,以及檔案價值在未來的不確定性,這樣的依據略有“一刀切”之嫌。

在國際上,經歷了“年齡鑒定論”“行政官員決定論”“職能鑒定論”“利用決定論”等階段后,目前獲得較為廣泛接受度和認可度的檔案鑒定理論是上世紀80年代末,由加拿大著名檔案學者特里·庫克提出的宏觀鑒定法(宏觀鑒定戰略),[5]這種方法要求檔案工作者對整個社會的形成背景、運行方式和各類文件的形成過程有所了解,以宏觀和綜合的知識背景及內心法則來作為檔案鑒定的依據,以期能相對準確地在檔案中反映出社會發展的面貌與趨勢。

相較于以行政法規作為依據,“宏觀鑒定法”最大程度地含納了之前幾個階段對檔案鑒定提出的準則;同時,也對檔案工作者在綜合素質上提出了幾近嚴苛的要求,畢竟“任何人終其一生的努力,也難以獲得與檔案內容和性質相對應的所有知識”。[6]這項要求在目前這樣一個多元化的大數據時代中顯得尤難企及,“電子文件驚人的產生速度,使其數量再次成為檔案鑒定的一道難題,因為即使是專業的檔案工作者也很難承擔數量如此巨大的文件鑒定工作”。[7]

即便是在一個相對較小的收集范圍內亦是如此,如在重大活動具體實施過程中,可能實時就有大量的文件和信息產生。檔案收集人員既無法判定這大量的文件和信息中哪些是重要的,哪些是不重要的,又承擔不了海量信息的“一股腦”照單全收,仍舊只能“給多少收多少”“有多少存多少”。

而在海量數據處理方面,人工智能卻是“行家”。在智能硬件的支撐下,使用特定的人工智能應用,對于海量數據的處理甚至可稱得上輕而易舉。人類無法承擔的大量的信息處理工作正是人工智能的“用武之地”。由是,宏觀鑒定法所指向的廣闊社會背景和即時產生的海量數據,就成為人工智能應用于檔案鑒定所要面對的外延。

2 構想

2.1 狹義的廣義人工智能。人工智能作為一種尚在發展中的技術,至今無法給出確切的、相對穩定的定義。在最寬泛的程度上,人工智能是“對數據或其環境做出反映的技術”,[8]但這種描述中包括了“智能系統”和目前所稱的“人工智能”兩個方面。智能系統是“依據確定性的算法所實現的系統”,[9]而人工智能則是“一種可隨機應變的技術”,[10]前者的處理結果是確定性的,而后者則依靠邏輯推理或模仿人腦處理問題的過程,其結果并非事先可知。所以從嚴格意義上來說,文首所提到的人工智能在檔案管理中的應用案例都只能算作是智能系統的應用,還未踏入“人工智能”之門。

這種程度的人工智能在檔案鑒定中顯然是無法充分發揮作用的。將“依據確定性的算法所實現的系統”應用在檔案鑒定中,只是依據一定的規則(如歸檔范圍和期限等),使用計算機來實現檔案鑒定。這無非就是一種將計算機作為一種工具來進行的檔案鑒定,也許可以在一定程度上緩解人工鑒定的工作強度,但仍舊無法實現一種綜合了社會背景、職能分工等各種要素的、對現實有著更準確反映的“宏觀鑒定”。

這也就是說,本節所要構想的,是一種可以替代人腦因信息處理能力不足夠而導致無法實現“宏觀鑒定”的人工智能。但這種人工智能又還未具備強人工智能(或稱人共同用智能AGI的能力),畢竟“沒有人確切知道制造 AGI的方法,專家們在這個問題上也存在分歧”。[11]所以本文所稱的人工智能介于更廣義意義的人工智能(即包含智能系統)和狹義人工智能(即AGI)之間,是一種“狹義的廣義人工智能”。

2.2 專家系統?;谥R庫的專家系統是在人工智能領域較早取得實際效果的計算機程序系統。專家系統內含有大量某個領域專家水平的知識和經驗,并利用專家的知識和解決問題的方法來處理該領域的問題。在檔案鑒定這里,專家系統須具備人類檔案專家的鑒定知識、工作經驗,并結合整個社會的總體經驗,對檔案進行鑒定。一般而言,專家系統由知識庫、全局數據庫、推理機、知識獲取、解釋器和人機接口等部分組成,[12]根據檔案鑒定工作的具體情況,其結構構想如下圖所示:

荷蘭在19世紀與20世紀之交實施的PIVOT項目中的“三方咨詢”即可被看做是一個較為完備的知識庫,即“相關政府機構的專家,相關機構的文件實踐管理者,國家檔案專家”[13]所具備的檔案鑒定知識,這是人工智能應用于檔案鑒定的內涵部分。

全局數據庫在一般的專家系統中主要用于存放有關問題求解的假設、初始數據、目標、求解狀態、中間結果以及最終結果;而在檔案鑒定的專家系統中,則是至關重要的、關于背景的一切數據,這是檔案宏觀鑒定理念的核心之所在,也是人工智能應用于檔案鑒定的外延之所指。

推理機由一組計算機程序組成,主要模擬進行檔案鑒定的思維過程,可被看作是整個專家系統的大腦和中樞,控制、協調整個鑒定過程的展開,推理機根據檔案數據庫中的初始數據和鑒定要求,運用知識庫中的規則來進行檔案鑒定。知識獲取是專家系統的一個子系統,是建造和維護知識庫及全局數據庫的接口,這個子系統應是開放的,可即時接收鑒定結果、對鑒定結果的反饋及其他實時產生的信息,并在推理機的作用下將信息分類置入知識庫和全局數據庫中。

解釋器是專家系統的另一個子系統,以全局數據庫為解釋背景,負責對鑒定結果進行回應,這是檔案鑒定專家系統最“像人”的部分,但由于全局數據庫的復雜性,同時也是最難控制的部分。人機接口是人們獲取鑒定結果并反饋信息的通道,通過人機接口,專家系統、人類專家、檔案利用者可進行溝通,鑒定結果和反饋信息同樣通過其傳回知識獲取子系統中,成為進行檔案鑒定的背景數據。

2.3 機器學習。專家系統對知識獲取的開放性及知識庫和全局數據庫對新增信息的接收和處理,已涉及人工智能的另一個重要學科——機器學習。機器學習是在專家系統的基礎上,令系統“更智能”的一種方式?!皺C器學習實現的是讓計算機透過大量的數據或以往的經驗來學習,不斷優化計算機程序的性能,實現分類或預測等功能?!盵14]將這種方式應用于檔案鑒定,即是令計算機通過大量的數據(即全局數據庫)及既有的經驗(即知識庫)來學習,自動優化專家系統的性能,實行更為準確的檔案鑒定,甚至綜合整個社會文化背景因素,來預測將來檔案鑒定的價值走向。

與人工鑒定相似,機器學習應用于檔案鑒定實質上也是在紛繁復雜的檔案數據中尋找共性,再應用于檔案多樣性鑒定的過程。在專家系統中,人類先提供一部分既有規則(知識庫),這種規則是以程序的形式被計算機系統所接收的,在此基礎上,令計算機系統深入全局數據庫,在復雜多樣的全局數據庫中歸納出共性,再返回知識庫進行修整,以經過不斷修整的規則(知識庫)來進行檔案鑒定。在此,知識庫和全局數據庫并非給定不變,而會隨著機器學習的不斷深入進行調整。

但機器學習應用于檔案鑒定的目標不止于此,除了對人類給予的知識庫和全局數據庫進行歸納,機器學習還需令專家系統真正具備一種“專家直覺”,即“可以看出眼前或未來的情況和過往發生情況的某些相似(特征)點”[15]的能力,對于人類專家來說,這是建立在更多的經驗和專業知識的基礎上,而對于專家系統來說,則建立在更豐富的數據和更強的推理歸納功能的基礎上。如此,具備機器學習能力的檔案鑒定專家系統在面對復雜大量的檔案數據時,才能有效節省嘗試和摸索的時間,真正地成為一種“人工智能”。

3 疑慮

3.1 偏差和偏見。至此,具備機器學習能力的專家系統似乎為人工智能應用于檔案鑒定提供了一種有效的解決方案,龐大的全局數據庫似乎也實現了宏觀鑒定的目標,但就如此輕易地將檔案鑒定工作交予人工智能卻又令人不那么放心,基于經驗的人類智能和基于推理的人工智能之間畢竟存在著巨大的差異。

這個差異首先表現為人腦的豐富性和人工智能的規則性。人腦對于問題的思考和處理與人工智能是完全不同的,植根于人類經驗的大腦有著極為活躍和豐富的思維能力,而以推理為基礎的人工智能則試圖將豐富的經驗以數條規則概括,人工智能的杰出人物之一馬文·明斯基這樣描述人工智能:“牛頓發現了三個簡單的定律,幾乎解釋了我們所看到的所有機械現象。一兩個世紀后,麥克斯韋對電能也做了同樣的事情……許多心理學家試圖模仿物理學家,把這些(關于大腦如何工作的理論)簡化為幾個簡單的定律,但并沒有奏效?!盵16]這在檔案鑒定這里,可能也遇到了同樣的問題,應用人工智能就是將保存著復雜的類經驗的檔案規整化,以可以窮盡的規則來處理可能無法窮盡的人類經驗,即便可以應用語義分析技術來對檔案鑒定規則進行擴充,對其進行解釋,但這個擴充和解釋也僅僅是在規則上下進行容錯,與“無法窮盡”根本無涉。在這個意義上,將人工智能應用于檔案鑒定存在著走上了與宏觀鑒定背道而馳之路的隱憂。

人腦和人工智能的這個差異直接導致了“偏差”和“偏見”的差異。人腦不可否認地存在認知偏差,即人們在知覺自身、他人或外部環境時,常因自身或情境的原因使得知覺結果會出現失真的現象,這是人類知覺具有選擇性的特征所致,也是大腦可能得出錯誤答案的原因。不過人類具備反思能力,在檔案鑒定工作中,人們可能不斷認識到自身存在的認識偏差并溫和地修正它。但人工智能卻不具備這種能力,人工智能本身不具備鑒定經驗,它的鑒定經驗是人類給予的,人工智能歷史上最為著名的軟件——伊莉莎(Eliza)的創造者、經歷過二戰的猶太人學者魏澤堡在《計算機能力和人類推理》一書中指出:“計算機程序員在某種程度上是一種造物主,他需要為自己所締造出的程序世界擔負起應有的責任……這種程序往往有著不可估量的復雜程度 ……”[17]一旦人類給予的鑒定經驗本身存在偏差,這種偏差就會無休止地重復下去,人類的認知偏差最終會導致人工智能在實際上的偏見。事實上,不存在偏差的人類經驗不僅有著“不可估量的復雜程度”,甚至可以說是不存在的。依靠一種存在著重復偏見的人工智能來進行檔案鑒定,其結果對歷史真實性的傷害毋庸贅言。

3.2 黑盒子。由于人工智能對數據具備強大的處理能力,偏見被重復推理,其影響也將持續發酵,人們甚至最終無法理解這種偏見產生的原因,這被稱為“黑盒子”,是人工智能的一項特質。而人工智能的另一項特質則是不確定性,即人工智能的推論及其推論行為是不確定的。庫克曾說:“檔案工作者在鑒定的時候,就是在決定未來的人們能知道過去的哪些內容,誰的聲音會被保留下去,而誰又得保持沉默?!盵18]將檔案鑒定工作交由一種人類既無法理解其推理過程,又無法掌控其推理行為的人工智能來進行,就是讓機器來決定未來的人們都知道過去的哪些內容,最終可能導致計算機對人類歷史的塑形,而人類則喪失了對自身歷史的自主認知權力,只能在依靠人工智能留存下來的檔案范圍內來看待自身的歷史,這意味著,到了“2062年,人類的聲音將很難在計算機如山如海的雜音中被聽到”。[19]人類或繼發達工業社會之后,進一步喪失其多樣性,成為更加單薄的“單向度的人”。[20]

如果說人工智能對人類歷史的言說是可靠的話,那尚可另當別論,但“我們所知道的比我們所能言說的更多”,[21]馬薩諸塞理工學院的經濟學家大衛·奧特(David Autor)提出的“波蘭尼悖論(Polanyi' s paradox)”如是說,其終極觀點就是,能被明確編碼的決策系統本質上就決定了其功能必然是有限制的。在檔案鑒定這里,人工智能作為一種“能被編碼的系統”本身就是有限的,以有限的人工智能來決定記載著無限人類經驗的檔案的存毀,這無異于“削足適履”。

網絡上曾經流傳著關于未來考古學家的一個段子:“考古學家初步判斷微博是古人用來裝飯的器皿,因為史書記載古人吃完飯后都要刷微博?!贝蠖鄶等丝赡苤粫恍χ弥?,但如果輕易將檔案鑒定交由人工智能,這或許真的不只是一個段子,而是將來的人們所認為的歷史真相。

4 結語

人腦和人工智能的差異、黑盒子及不確定性的存在,使得本文辛苦構建的專家系統似乎失去了存在價值,對檔案鑒定來說,人工智能似乎也成了鏡花水月,這當然不是事實,上一節只是想說明人工智能應用于檔案鑒定并沒有想象中這么容易和樂觀而已。在著名人工智能科學家托比·沃爾什教授的調查中,“對于計算機像人類那樣完成工作的概率為 90%的日期,專家們預測的中位數為 2112年,而非專家的預測僅為 2060年”,[22]人工智能的徹底實現已經勢不可擋,盡管專家們沒有普通民眾那么樂觀,畢竟也沒有否認這個到來的日期。裹挾于時代洪流中的檔案工作當然無法例外,人工智能應用于檔案鑒定是時代的必然。如果說人工智能的種種局限,令人們暫時無法放心地將檔案鑒定工作交予其的話,改變檔案鑒定的理念或許是一條可行的進路,即依靠人工智能實現的鑒定不再掌握檔案的生殺大權,只令其在系統中進行虛擬的價值鑒定,而不在物理意義上進行銷毀鑒定。事實上,檔案銷毀問題歷來就有爭論,我國現代著名歷史學家顧頡剛就對此頗有微詞,[23]“他們看盤庚以來二百余年卜用的甲骨,正如我們看一大堆廢紙似的”。提到著名的書厄“八千麻袋事件”“明朝刑部老檔燒毀事件”“蒙藏院檔案販賣事件”更是痛心疾首:“誰想過了三千年,這種廢紙竟沾了人們的歷史觀念的光,忽然發生了用處,害得許多考古家和古董商費了全副的精力去搜求,騰起很高的行市!又誰想現在人們的歷史觀念,只會應用于數千年前的檔案,甲骨。而不會應用于數百年中的檔案!”在顧先生扼腕的年代,檔案的保存尚有存儲空間和成本之憂,但時至今日,電子文件的普及使用,檔案早已具備了以數字,甚至數據的形式被保存的條件,這也令得存儲的成本大大降低。如此看來,對于檔案鑒定專家系統所依賴的全局數據庫應盡數保留,對鑒定無用的檔案也應一并存入全局數據庫進行保存。對于檔案中保存的史實,一時代有一時代之觀點,一時代的人工智能亦有一時代之“偏見”,但無論何種人工智能對歷史進行何種削減,只要盡可能多的全局數據被保存,人類的視域也就被最大程度地保留了下來,這可能是目前人的歷史不被機器言說所取代的唯一途徑。

猜你喜歡
黑盒子專家系統機器學習
數控機床液壓系統故障診斷專家系統的研究
基于網絡搜索數據的平遙旅游客流量預測分析
FCCU精餾塔故障診斷專家系統的研究與開發
前綴字母為特征在維吾爾語文本情感分類中的研究
基于LabVIEW和Access的陀螺儀組故障診斷專家系統
基于支持向量機的金融數據分析研究
火電機組汽輪機故障診斷方法總結研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合