?

生成式人工智能與知識生產

2024-05-08 19:53劉海龍
編輯之友 2024年3期
關鍵詞:人工智能

【摘要】生成式人工智能與知識生產范式的變革是目前廣泛關注的問題。文章首先對質疑人工智能不能進行知識生產的觀點進行分析與回應,在此基礎上回顧知識媒介歷史,探討生成式人工智能知識生產的特點,總結得出三種知識媒介,即追求全面圖書館藏的“巴別圖書館1.0”、運用非線性方式組織知識網絡的“巴別圖書館2.0”、歸納知識底層邏輯重新生成新書的“巴別圖書館3.0”。目前的生成式人工智能屬于“巴別圖書館3.0”,它打破了傳統的知識搜索加推理的知識生產方式,通過模仿人類知識進行知識重構。這種新的知識生產方式雖基于統計學,是海德格爾意義上的“新常人”產物,但也具有創造性。人機協作的知識生產是生成式人工智能具有創造性的重要條件,但這種新的知識生產方式并非傳統意義上的“思”,會引發人類思維邏輯機器化,以及知識權威和知識標準混亂等潛在后果。

【關鍵詞】人工智能 知識生產 智能傳播

【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2024)3-005-09

【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.3.001

一、人工智能能否進行知識生產?

在2023年年底由《學術月刊》《光明日報理論部》和中國人民大學書報資料中心聯合發布的2023年度中國十大學術熱點中,“生成式人工智能與知識生產范式變革”名列其中。[1]以ChatGPT、Gemini為代表的生成式人工智能之所以引起不同學科的關注,就在于它似乎可以無所不知、源源不斷地為人類的各種問題提供解答??梢灶A見,未來它將深度地介入各種類型的知識生產。由于采用深度學習的算法,生成式人工智能基本上還是對知識的再生產,在這個意義上,生成式人工智能是一種基于算法的知識媒介。

本文討論的知識,不限于專業性的、系統的、正式的知識,而是知識社會學和現象學中所說的更廣泛的知識,即個人用于建構世界的意義與做出決策的信念,它既包括正式的知識,也包括非正式的日常知識,比如新聞、傳言、故事、神話、習俗等。[2]這就是杜威所說的通過習慣知道如何做的知識,“我們走路和大聲閱讀,我們上下有軌電車,我們穿衣脫衣,我們做千萬個有用的活動,卻沒有思考它們?!盵3]人工智能研發進路的分歧基本上反映了這兩種不同知識的區別。正式的知識偏理性邏輯運算,往往先將世界抽象成某種形式或符號,再進行推理、計算。而非正式的知識則更依賴于難以被完全抽象形式化的身體、情感等非理性的、難以用語言表達的默會知識。杜威把非正式知識稱之為實踐知識(knowing-how),與正式的命題知識(knowing-what)相對。[3]后者依賴長期的模仿、學習和實踐,不斷強化某些符號與行為間的聯系,這就形成以深度學習、神經網絡等為代表的聯結主義的人工智能開發路徑。[4]

語言學家喬姆斯基曾批評目前的神經網絡(聯結主義)進路的人工智能只是模仿而非理解,他認為不能自己加以解釋的輸出結果不能稱之為知識。[5](155-156)這種看法混淆了正式知識與非正式知識。能夠通過符號計算得出的理性知識是可以解釋其輸入、規則和推理過程的,但非正式知識就很難說得清其背后的所有依據,人們學習非正式知識的方式也主要是通過模仿,從說話的風格、語音語調、姿態言辭背后的微妙意義,到走路、游泳、騎車,有許多自動化的技能,但是卻很難解釋清楚為什么會這么做。這就像海德格爾對“上手”與“在手”的區分。我們“上手”使用用具時并不會把注意力放在用具那里,而是專注于任務本身,人通過操勞領會用具的性質,此時用具變得通透甚至消失,并不是我們認識的對象,是不可解釋的。只有當工具出現問題時,我們才會將工具作為認知對象,去觀察、思考、解釋它們,這時候它們便處于“在手”狀態,已經不再是我們打交道的對象,而是認知的對象,其屬性發生了根本變化。[6]有時候當人們不用意識去控制,進入“心流”狀態時,反而表現得比意識控制時更好。比如2018年獲得奧斯卡最佳紀錄片獎的《徒手攀巖》中表現的,攀巖愛好者迪安·波特(Dean Potter)在攀巖時完全依賴身體的感覺,將控制權交給無意識。從現代腦科學角度看,就是完全依賴人們意識不到的神經元突觸連接,經過長期訓練與學習,它們之間已經建立了人類意識不到的固定聯系,具有精確的處理能力。[7]

概括而言,人類對媒介技術與知識生產認識存在著幾種不同的看法。首先,作為一種“常識”,媒介技術被視為傳播知識的工具,比如伯克在他的《知識社會史》和《什么是知識史》中,皆持這種看法。[8-9]媒介技術可用于儲存和擴散,隨著技術的進步,知識的擴散速度和滲透率會越來越大。這種看法將知識與媒介截然二分,忽視了媒介對于知識本身的影響。第二種看法肇始于伊尼斯,他將媒介與知識的關系作為核心問題進行關注。在其媒介偏向論中,具有不同空間和時間特性的媒介影響了知識的壟斷與擴散,從而改變了社會的權力結構與歷史進程。[10]從表面看,伊尼斯與前一種媒介工具論差別不大,然而他卻開啟了媒介化知識的傳統,媒介技術并不是外在于知識的,而是知識的重要維度。麥克盧漢將這一觀念發揚光大,他的那句“媒介即訊息”,不僅意味著不同時代的媒介決定著知識的深層結構(如以口語為代表的聽覺/神話性知識、以字母表為代表的視覺/理性知識),而且媒介本身就是一種因為透明而被隱藏的知識,它的中介性被它自己屏蔽掉了,使人很難感知。后來的德布雷、基特勒都沿著這個思路不斷將媒介化知識的問題進一步引向深入。

當前媒介在知識生產中扮演的角色有了新的變化。在人工智能時代,媒介從隱蔽的知識中介變成走上前臺的行動者。它不僅在隱喻的意義上參與知識生產,而且以主體的身份,回應用戶需求和問題,直接進行知識生產。正如古茲曼(Guzman)所說,目前的人機交流正在走向機器以主體的身份與人交流的新階段。[11]

不過細究起來,生成式人工智能是否真的能夠感知世界,它生產的是否是真正的“知識”,基于計算的認識論與人類的認識論是否具有同一性……這些都是存在爭議的問題。原因在于目前對于知識的定義,均是以人類的知識為標準。比如黑格爾在《精神現象學》中提到,精神的最初狀態來自于身體感知的知識,然后才得以逐漸抽象和一般化。盡管基于感官的知識在這個演化鏈條上處于低端的位置,但卻是精神演化必不可少的一環。[12]如果缺乏這種依賴感官的知性的知識,一般化的知識就成為沒有實質內容的空殼。在伯格和盧克曼的《現實的社會建構》中,知識的一般化過程也是從個體的具體經驗開始,逐漸通過類型化、客觀化、正當化的過程,抽象為特定群體共同接受的知識,最后再通過時間傳承固定成為傳統。[13]

目前基于大語言模型的人工智能生產的知識跳過了身體感知這個最低級也最基本的步驟,直接通過算法對已經具有一定抽象度的知識進行編碼(類型化、客觀化)和概率計算(平均化)。這就像哲學家塞爾在“中文屋”假說中所說的那個人一樣,對于詞語指涉的對象沒有任何直接的經驗,甚至都不知道它們具體的意義是什么,只是通過語言使用手冊,將指令中最可能的語言(知識)輸出給提問者。[14]在許多人看來,這并不符合人類對于“思考”與“知識”的一般定義。弗盧塞爾將這種知識稱之為“技術圖像”,與傳統圖像不同,技術圖像不是對外部現實世界的呈現,而是依據凝想對既有歷史的吸收與利用,它通過概念的計算與自我指涉,最終會將歷史消耗殆盡,陷入尼采所說的“同一物的永恒循環”。[15](40)

哲學家德雷弗斯在《計算機不能做什么》一書中認為,理性主義及胡塞爾的超驗現象學主張將世界形式化,將其變成非身體化的數據,但是當面對現實世界的多重復雜性時,這種方法就難免捉襟見肘。他更服膺海德格爾的現象學進路,認為身體在世所產生的知識要比計算所產生的離身化的被動知識更豐富、更復雜。[16]法國哲學家利奧塔也提出,這種僅存在于理性計算而缺乏身體感知的知識并不是真正的知識。[17]

對知識定義的探討,必然會涉及哲學史上關于智能、心靈、身體、心理等問題的爭論,尤其是身心關系的討論,非常復雜。如果借鑒圖靈判定“機器能不能思考”這個問題的思路,拋開對知識的本質主義定義和人類中心主義的定義,從實踐結果層面看,目前以大語言模型為基礎的人工智能通過語言與符號的互動,以一種類主體的角色,影響了用戶認識世界與做出決策。這種知識在功能上與用戶通過親身實踐、閱讀訊息、與他人交流獲得的知識完全是等價的。隨著技術的進步,未來機器甚至能夠通過直接感知獲得知識,有可能建立起與人類知識平行的另外一個知識的范式。如果不執著于人類中心主義的對知識的定義,未必一定會得出人工智能無法生產知識的結論。質疑機器能否思考或者機器能否生產知識,就和討論“潛水艇是否會游泳”一樣,可能只是以人類為標準的語言游戲。在某種意義上,它們生產的是不同于人類知識的知識,并且從歷史進程看,這種基于算法的知識及認識論,正在成為人的認識論和社會關系的紐帶。[18]

人工智能知識生產也會反過來改變人類對于知識的看法。比如可以預見的一點是,未來使用不同語言的人可以借助人工智能翻譯進行自如的交流,他們不具有另一種語言的知識,亦可用另一種語言表達思想。當然,在過去,不同語言的交流可以借助譯員完成,但人工智能的“翻譯”可以從語言擴展到任何領域,比如時下最前沿的繪畫(如Midjourney)、視頻制作(如Sora),甚至借助腦機接口,可以具備下圍棋、作曲、寫書法、跳舞、開飛機等技能。這會深刻改變人們關于學習與知識的概念。如果說考試時人們只抄襲了別人答案,會被認為沒有掌握知識,考核不合格,那么使用人工智能提供的答案而不理解其意義能不能被認為掌握了這個知識?是否一定是理解某個操作意義才叫作具備這方面知識,塞爾“中文屋”假說中關于知識的定義是否仍然適用,人加上機器是否仍會產生意向性?人們會逐漸發現原來對于人工智能是否能夠思考的質疑也會被加諸使用人工智能的人身上,未來的學習是否還需要按照現有的定義按部就班?這些問題未必會有共識,但是關于知識和學習的看法,肯定會變得更加多元。

人工智能生產的知識究竟與人類生產的知識有何不同?要討論這個問題,首先要將其放到人類知識生產的大背景中加以理解,考察其知識生產方式的獨特之處與斷裂之處,然后才能討論這一新的知識生產方式會對個體及社會產生什么影響。本文將初步討論以下三個涉及人工智能與知識生產的問題:

1.當前以大語言模型為基礎的人工智能在人類的知識生產歷史中處于什么位置,究竟有何種創新,在哪些方面對原來的知識生產方式構成了挑戰?

2.從現象學角度看,以大語言模型為基礎的人工智能生產的知識與人類的知識有何不同?

3.人工智能生產的知識可能對使用者及社會產生什么潛在的影響?

二、從宇宙之書到生成之書

從人類知識史看,生成式人工智能的知識生產方式具有革命性,它很有可能開創一種新的知識生產范式。對這個新范式的討論有許多角度,如果從媒介視角切入,可以先從人類知識的物質層面——儲存與加工的方式進行考察。知識盡管被視為非物質性的存在,但是從媒介視角來觀察,反而會跳出具體的知識內容,從知識與載體、保存空間、保存方式、與人類的互動界面等方面,看到知識的形式特征。

這里不得不提到阿根廷著名作家博爾赫斯的一篇短篇小說《巴別圖書館》,它關注的正是知識的物質問題。博爾赫斯將整個宇宙視為一個圖書館,認為在理論上人類關于一切的知識均會被記錄下來。他想象了一個六邊形的塔狀圖書館,每條邊立著書架,不同樓層彼此相通,它儲存了人類有史以來所有的圖書。[19]正如這個圖書館的名字“巴別”顯示的那樣,這是一個可以通向天堂的知識之路,是通過知識掌握世界的偉大工程。

其實類似野心勃勃的工程在歷史上不乏先例,中國元朝之后也存在“瑯嬛福地”的想象。傳說這是天帝藏書的地方,它包含人類可以想象的所有被記載下來的知識。張岱就曾以“瑯嬛”命名自己的文集。歷史上曾經有許多圖書館滿足了人們對知識的想象,比如埃及的亞歷山大圖書館、中國漢朝的天祿閣(藏書)與石渠閣(保存檔案)、阿拉伯的智慧宮(巴格達)、非洲的廷巴克圖圖書館(馬里共和國)等。

我們可以把博爾赫斯這個略顯荒誕的幻想視為一個大膽的思想實驗:如果把人類知識的載體全部集中在一起,是否就能通曉宇宙的奧秘?這個思想實驗顯示了人類知識的極限,同時也有助于反思其邊界及問題。如果不考慮不同語言的溝通問題,這樣一個無邊的圖書館給人們帶來的最大挑戰就是知識過載。如何壓縮知識,成為最迫切需要解決的難題。

博爾赫斯還提到過另一個版本的巴別圖書館——只有一本書的圖書館。這本書由無限薄的紙和無限多的書頁構成。盡管這篇小說寫于1944年,但后知之明讓我們知道,這種一本書的圖書館預言了今天的互聯網。電腦、手機的屏幕就是那張無限薄的紙和無限多的書頁。通過這個界面,所有知識都會瞬間呈現在我們面前,數量甚至遠超博爾赫斯最初想象的那些以書籍形式存在的知識。因為它不僅包括正式出版的知識,還包括每個人通過社交媒體等數字技術生產的知識。

這些廣義“數字出版”的知識正在以指數級增長。曾經有個經典的比較,一份《紐約時報》包含的信息,比17世紀的人一輩子接收的信息都要多。歷史經年的積累加上網絡上每個普通人生產的知識,使得任何一個人也不可能像金克木所說的那樣,“把書都讀完”。因此知道需要什么知識以及在哪里可以尋找這些知識變得更為迫切,它們是人類面對浩瀚的知識海洋時壓縮知識體量的一種實用的策略。目前的關鍵在于如何將這些物質形態存在的靜態的知識,變成鮮活的知識。

如果我們把以書籍形態存在的、線性的知識構成的巴別圖書館稱之為巴別圖書館1.0的話,那么還存在另一種想象知識存在形態的方式。1965年泰德·尼爾森(Ted Nelson)提出了超文本和超鏈接的概念。他認為知識未必是以像書籍這樣線性的方式存在,而是以一個非線性的、交織的思維系統的方式存在,他稱之為“纏繞團”(structangle)。[20]換句話說,我們并不需要像閱讀書籍一樣,按照從第一頁到最后一頁的順序,由淺入深地獲得知識。宇宙間的知識存在的形態不是一本書,而是無數個相互交織在一起的知識點。所以對于知識的物質性而言,重要的不是數量,而是其存在形態。只有在知識之間建立聯系,讓其可索引、可擴展、可使用,才能真正意義上壓縮知識,使人能夠迅速地找到最需要的知識。

在這一巴別圖書館2.0版本中,人們最熟悉的莫過于HTML語言中的超鏈接文本,它將無數的網頁通過某種犬牙交錯的方式,嵌套在一起,成為一個開放的圖書館和文獻宇宙(Docuverse)。這個巴別圖書館沒有起點和終點,不存在固定的秩序。得益于互聯網技術的發展,尼爾森的構想逐漸成為現實,盡管他自己發明的“上都”(Xanadu)系統因為生不逢時而歸于失敗。

除了這種以靜態形態存在的知識外,巴別圖書館2.0版本還存在另一些活知識的版本。比如皮埃爾·萊維提出的“集體智慧”概念認為網絡將帶著不同知識與經驗的人聚集在一起,有利于他們協作,生產出更具有針對性的知識。這種知識可以直接跳過書籍這個中介。德里克·德·科克霍夫將這種知識稱之為“互聯智能”,戴維·溫伯格將其稱為分布式的“網絡化知識”,弗盧塞爾將之稱其為建立于遠程通訊基礎上的“超級大腦”。

人腦中存在的知識本身就是非線性的,彼此交錯在一起,網絡同樣也是通過外部刺激,激活這些知識,讓其相互啟發,生產出新的知識。這就比尼爾森所設想的超文本更進一步。它不是通過一個人去掌握所有知識,而是通過每個人了解知識的一小部分,然后再將這些鮮活的、可隨時調用的知識通過體外的網絡技術連接在一起。

當然,這只是一種理想狀態,真正在運行的時候,仍然會存在不同人群與網絡彼此不互通的局面,而且這個知識網絡本身還存在著等級上的優先性,并不是所有的知識需求都可以得到滿足。同時由于缺乏門檻,其中還充斥著大量個體無法驗證的錯誤知識。

在人工智能發展早期,存在著一個專家系統的解決方案,最有代表性的是通過質譜儀數據給出化學結構的DENDRAL系統和針對細菌感染的診斷系統MYCIN系統。其思路是先將某個特定領域的知識進行符號化和層級化,然后通過算法對特定問題進行搜索與推理。它很像某個領域的專家,所以也叫專家系統。后來伯納斯-李提出的“語義網”和谷歌的“知識圖譜”都希望將人類知識整理成一個機器便于計算與檢索的數據庫,以實現知識壓縮和被機器閱讀激活。但這類專家系統只能成功地聚焦于某些細分領域,一旦擴展到全部領域,面對形式化復雜的人類知識時,就會顯得力不從心。

博爾赫斯在《巴別圖書館》結尾一處注釋中還提及一個有趣的猜測:“也許這個圖書館的無限性,只是人類的錯覺,很可能是同樣的一些書,以同樣的雜亂無章在重復?!币虼?,找到這個圖書館內收集的知識的規律,便可一勞永逸地壓縮知識。而這正是目前具有突破性的建立在大語言模型基礎上的人工智能做的工作。

以ChatGPT為代表的大語言模型通過海量的語料庫,將傳統的巴別圖書館1.0的藏書中的語義單元(token)轉換為千億甚至更高級別的參數,然后針對人類的問題,用生成語言的方式,而不是搜索的方式,進行回答。從人類的角度來看,就相當于這些人工智能產品在閱讀了人類圖書館中所有的圖書之后,歸納出其中規律。在接到人類的問題之后,不是像前面提到的專家系統那樣去檢索圖書館中的書籍,找到合適的答案,而是根據它得出的人類知識的規律(主要是語言表達的規則),重新寫了一本書予以回答。

按照前面的邏輯,我們可以將這樣一種知識的存儲與提取方式稱之為“巴別圖書館3.0”。在某種程度上,人工智能代替了人類去閱讀與消化知識,成為一個人與知識的界面。與巴別圖書館2.0中分布式的“網絡化知識”和“集體智慧”相比,以大語言模型為基礎的人工智能將網絡化的知識徹底內化,將人的參與降低到了最低。通過自主學習,它將人類既有的知識進行大幅度壓縮,最終將它們變成了語言的概率計算問題。一些學者提出這不是真正的思考與智慧,而只是語言游戲。[21]這是基于形式計算(符號主義)人工智能理論的批評,但是從目前大語言模型的表現來看,似乎人類知識的規律正隱藏在語言之中。言說的過程,就是思維本身。[22]

值得注意的是,巴別圖書館3.0版本仍然基于人類既有的知識,只不過用了一種新的整合方式將其重新呈現。但是當機器擁有了自己的感知與主體性的時候,它們也完全可以自己從頭開始,另起爐灶,建立起自己的圖書館。機器所扮演的不再僅僅是計算的角色,還會扮演感知與創造的角色。這一過程在DeepMind公司發明的人工智能圍棋AlphaGo中已有體現。最初擊敗韓國棋手李世石的AlphaGo版本是對人類所有棋譜中每一步的獲勝概率進行歸納學習后,建立起自己的神經網絡算法。而后來的版本AlphaGo Zero完全擺脫了人類棋譜,通過無監督學習的方式,從零開始,自己與自己對弈,左右互搏,只經過3天的訓練便以100∶0的戰績擊敗了AlphaGo Lee(戰勝李世石的版本),經過40天的訓練便擊敗了AlphaGo Master(戰勝中國棋手柯潔的版本,當時柯潔的實力強于李世石)。換句話說,AlphaGo Zero在僅僅給定了圍棋基本規則的前提下,獨立發明了圍棋的所有技戰術。目前人類職業棋手在實戰中,已經全面拋棄了原有定式與思維方式,開始學習人工智能生產的圍棋知識。

按照同樣的邏輯,可以預見,如果賦予機器自主感知與實踐,在將來的某個時刻,會出現不基于人類既有知識的“巴別圖書館4.0”。人工智能完全有可能重新發明“宇宙之書”。到這個階段,人類不再是知識生產的唯一主體和標準制定者,我們會迎來一個真正的二元甚至多元知識的時代。

三、人類與“新常人”協作的知識生產

從知識存在的物質媒介,可以看到人工智能在知識生產的歷史中居于什么位置,以及它的革命性表現在哪里。然而這樣的知識生產對于人類來說,是一個算法黑箱,就連其發明者也無法確切地理解和解釋知識生產的具體邏輯。但這并不意味著人類就無法理解人工智能的知識生產過程,我們可以通過現象學的路徑,從個體和群體體驗的角度,理解這些新型知識的文化意義及其效應。

前文提及人工智能開發中兩個相互競爭的路線。一個是笛卡爾的理性主義路徑,試圖將人類所有知識全部形式化為符號、命題與數據,然后通過邏輯計算得出答案。另一個是模仿人類大腦的神經元結構,通過學習建立和強化不同單元間的聯系,從而模仿人類的思維與行動方式,輸出答案。換句話說,“一派把計算機看作操作思想符號的系統;另一派則把計算機看作建立大腦模型的手段。一派試圖用計算機來例示對世界的形式表述;另一派則試圖用計算機模擬神經元的相互作用。一派把問題求解作為智能的范式,另一派則把學習作為智能的范式。一派利用邏輯學,另一派則利用統計學。在學派上,一個是哲學中的理性主義,還原論傳統的繼承者;另一個則把自己看作理想化的、整體論的神經科學”。[23]用德雷福斯的話來說,前者是“造就心靈”,后者是“建立大腦模型”。[4]或者用不太準確的話來說,這兩者的分歧就是結構與功能之別。[5](1)當然,這兩個路徑并非涇渭分明,建立大腦模型也離不開最基本的形式計算,造就心靈也離不開對人類邏輯思維的模仿。

20世紀60年代至80年代中期,在人工智能研究最初的這段時間里,符號理論或專家系統占據上風。它首先要用符號表征世界,然后才能邏輯推理。這個形式化過程在實踐中遇到了困難,特別是對日常知識的形式化,常常顯得力不從心。早期聯結理論由于缺乏腦科學支持,更重要的是機算力無法與人腦的神經聯結量匹敵,因而在表現上不如符號理論,直到20世紀80年代末聯結主義才得到復興。目前人工智能的突飛猛進,主要采用的則是聯結理論或神經網絡系統。因為算力的大幅度提升,模仿人腦聯結的參數數量可以增加到千億級甚至萬億級,它們可以通過預測與自我檢驗建立語言間的聯系,所以機器突然變得可以像人類一樣理解日常語言微妙的意義并作出回答。這個路徑的優點在于可以跳過形式計算論企圖對世界萬物進行形式化的復雜建模,同時避免總結抽象出一個適用于萬物的空白框架。它可以學習無法形式化的日常知識,不必理解其背后的邏輯與運行機制。這就使其具有了靈活的適應性,可以通過大量語料庫的深度學習,找到統計學上的規則,進而模仿這種規則生產知識。但正如形式計算理論批評的那樣,基于聯結理論的人工智能并不理解自己在做什么,在運行的底層沒有真正的邏輯推理和思維,只是根據統計學中大部分人類的選擇,模仿人類的輸出行為。所以會產生一些連簡單的數學計算都會出錯的問題,或者出現連兒童都不會出現的“機器幻覺”。

從人工智能思想發展角度,可以對前面討論過的知識媒介的變化過程做出另一種解讀,發現一條與當下生成式人工智能發展平行的線索。當下人工智能的強化學習需要具備盡可能完備的語料庫,這正是巴別圖書館1.0的概念,它構成了人工智能發展的基礎。巴別圖書館2.0想要將1.0的知識進行形式化,找到其中的邏輯,這正是知識圖譜和符號主義的目標。但是十分遺憾的是這個任務過于宏大,無法窮盡,而且有大量日常的知識無法被形式化。巴別圖書館3.0采用的則是聯結主義的人工智能,通過將巴別圖書館1.0作為強化學習材料,不斷自我訓練,建立起宇宙之書中的知識點聯結,然后在輸出知識時擺脫對巴別圖書館1.0中知識的搜索,根據預訓練建立起來的參數,重新生成問題的答案。

在之前的研究中,筆者將目前基于大語言模型的人工智能生產的知識與海德格爾所說的“常人”生產的知識相類比,提出生成式人工智能是“新常人”的觀點。[22]由于生成式人工智能的算法邏輯是基于詞語間聯系的概率,因此它所生產出來的知識是一種對人類知識取平均值的知識。換句話來說,就是目前知識的話語結構中,出現概率最大、被最多人選擇的表述。這種知識是一種被磨平了棱角、被大多數人接受、隨大流的知識。只不過由于其背后的語料庫極其龐大,它所輸出的知識的廣博性掩蓋了其平庸性。①

當然,這里的“新常人”是一個中性概念。如果使用前文提及的“巴別圖書館”隱喻,生成式人工智能生產的知識即是對既有圖書語言表述規律進行總結后,按照這一基于統計學的規律將語言重新組合后得出的結果。因此,它在最大限度上模仿了人類的語言及其背后的思維結構。[22]所以在生成式人工智能的邏輯里,人被定義為與周圍的同類最大限度地保持一致的動物。對人類知識進行計算的人工智能本質上并不追求具有獨特性的知識生產,而是呈現它學習到的被多數人認可的知識。

人工智能本質上是“新常人”的判斷并不意味著它不能進行有創造性的知識生產。其創造性來源于兩個方面。

1. 基于海量數據的智能涌現

盡管目前基于大語言模型的人工智能只是在模仿大部分人類的語言表達,但是它的海量語料庫使其超越了任何單一人類所能達到的淵博程度,足以生產出前人未見的知識。比如在棋類游戲領域,就已經充分證明了人工智能擁有比人類更“大膽”、更有“創意”的戰略與戰術。得出這樣的“創造性”判斷只是因為機器的實際表現超出了人類理解和預測能力的上限,是一個基于人類平均水平的標準(如果與多數人一致就是缺乏創造性的話),而從機器的角度,這不過是基于概率的必然選擇而已。弗盧塞爾認為,其實人類的創造或信息生產也不過是一個組裝已有信息的游戲而已,多數的信息都是在人們彼此的對話中合成出來的,它并不具有神秘性,與人工智能的信息生產沒有本質區別。技術圖像的這種可復制性使當權者和權威變得多余,最終瓦解我們后面將談到的人類的權威與創始者。[15](67-70)因此對人工智能是否有“創造性”的評價,取決于可行的機器計算是否在廣度與深度上超出了人類的解釋與預測能力。

另一方面,生成式人工智能的知識生產過程既具有嚴謹的規定性,又具有人為設置的隨機性、復雜系統的不可預設性以及物質基礎設施不可控所產生的偶然性,這個過程中產生的隨機性又會使其產生與人類完全不同的“創造性”思維,尤其在詩歌、視覺藝術方面,這種基于機器隨機性的“奇思妙想”常常會讓人感嘆。

2. 人類與機器協作后的疊加效應

很多人把注意力放到人工智能的回答上,而忽視了目前的人工智能知識生產都是在人類提示詞的引導下完成的。正如蘇格拉底所說的那樣:聰明的提問者和平庸的回答者一起,可以產生卓越的哲學。遠高于其對話者的蘇格拉底,通過不斷地追問、質疑和引導,會將平庸的回答者引向未知的“海域”,讓他們的潛能得到充分的開發與磨練,進而發現新的知識島嶼。

當擁有前所未有的豐富知識的“新常人”被富有創造力的問題加以引導時,就會生產出讓人眼前一亮的知識,尤其是涉及超出個體能夠掌握的知識背景和海量計算的領域,人工智能常常會有出乎意料的表現,填補人類的思維盲點。

四、機器的人類化還是人類的機器化?

上述人機協作的知識生產有三個值得注意之處。一是目前的人工智能的知識生產并不是純粹的自我引導型的知識生產,不論是因為開發者刻意的設計還是因為當前技術的局限,都使它被剝奪了提問的權利,只是作為工具回應人的問題。在這個意義上,人工智能不具有主體性,并不是真正意義上的人類之“思”。

有學者指出,人工智能并不思考,只是一種計算的知識。[24]然而,將人工智能的知識籠統地稱為計算的知識并不準確。正如上文在討論人工智能的兩個開發路徑時提到的,形式計算理論才是真正意義上的計算的知識,而聯結理論嚴格來說是對人類神經系統的一種整體性的模仿,是基于統計而不是邏輯計算,計算只是其具體手段。但有趣的是,與聯結理論只是模仿人類思考結果相比,基于形式計算的人工智能理論反而是更追求人類的“思”的邏輯,只不過這種“思”是大陸理性主義哲學所理解的“人類之思”而已。但拋開人類之思是否具有絕對優越性的問題不談,換一個思路,從人與技術關系的角度來思考這個問題,可能又會得出不同的結論。

在人與技術關系的討論中,常常存在著一種二元對立思維框架。例如柏拉圖、盧梭等都譴責過技術對人類潛能的破壞,認為技術使得人類放棄了自身的內在回憶或者道德方面的特長,轉而依賴機器,最終導致人類的墮落。但是以斯蒂格勒為代表的技術哲學家們卻認為,人類與技術從來就是共生在一起,離開了身體、火、簡單器具、語言等技術,人無法成為真正意義上的人。正如柏拉圖的愛米比修斯的神話所說的那樣,與地球上的其他動物相比,人類的獨特之處就在于他們能夠發明與使用工具。[25]

如果說人離開技術不成其為人的話,那么反過來,技術是否可以獨立于人而存在?以埃呂爾、溫納為代表的技術自主論認為復雜的系統性技術有自己的演化邏輯,無論是發明者、生產者還是使用者,均無法整體掌控它。技術會將自身的律令強加于社會之上,使整個社會配合技術的運行。甚至荷蘭的維貝克還提出技術像人一樣也具有意向性,[26]這與德雷弗斯、塞爾等學者認為人工智能與人的差異就在于缺乏意向性的看法針鋒相對。這樣一種人本主義的技術觀在馬克思的異化理論、海德格爾的技術集置理論那里就曾初露端倪。[27]

然而這并不必然得出技術可以脫離人而獨立運行的結論,因為在最低限度上,技術需要借助人這個代理人而運行。即使是用拉圖爾充滿后人類主義的ANT理論來看待技術的運行過程,人作為行動者也會參與到技術的過程之中,更何況文化仍然會影響技術潛能的釋放。就像雷蒙·威廉斯提出的那樣,任何一種技術都是文化形式,取決于社會的整體需求,[28]比如互聯網在中國的運行邏輯就與其他國家截然不同。

從目前基于大語言模型的人工智能知識生產來看,人的提問與引導仍是其必不可少的關鍵環節。原因在于目前的人工智能只是基于既有人類知識而生成,無法超出這個系統提出實踐中有待解決的問題。而人類生理的與求知的欲望在知識體系外,構成了提出問題的原動力。因此,人工智能的知識生產,首先是人類參與其中的知識生產,而不是脫離了人類的知識生產。從倫理角度看,人工智能知識生產的后果究竟是善是惡,取決于人類的算法、語料庫、提示詞(問題)的設置是否合理、對回答本身的校驗是否有效,即使是所謂“算法偏見”,最終也源自人類的偏見。之所以人們會產生機器可以擺脫人類獨立進行思考的想象,原因在于計算過程過于復雜、難以追溯,再加上人類參與的間接性和分散性,使得傳統的倫理因果推理變得曖昧不清,導致在具體問題的追責上變得困難。然而從整體看,人類仍然在目前人工智能的知識生產中發揮著必不可少的作用。

第二個值得關注的問題是這種人機協同的知識生產方式會對人產生何種后果。這里所說的后果不是具體知識內容的影響,而是人工智能作為知識生產方式和媒介對人的思維和行為方式的影響。最容易想到的當然是對人工智能的依賴,比如放棄自身的思考,凡遇事不決,先問AI。在某些封閉性的系統中(比如棋類游戲),AI的判斷結果確實已經深刻地影響了人的決策。這很可能會帶來海德格爾所說的追隨“常人”的看法,放棄決斷所造成的“沉淪”,使個體無法成為具有本真性的我,只能渾渾噩噩,隨波逐流。[22]

還有一種結果則更加隱蔽,它往往可能體現在AI使用高手處。為了調教AI,得到最理想的輸出結果,使用者往往會不斷地嘗試用更精準、更巧妙的提示詞來調整AI的表現。提問質量的優劣,構成了“人工智能素養”的重要部分。這與前面所討論的蘇格拉底式的提問并不完全相同。蘇格拉底的提問是對人類之思的刺激,常常會使用類比、反問、推理,甚至敘事的方式來推進論證。然而這些策略未必適用于與人工智能的交互。

為了提高交互的效率,人工智能的提示詞要遵從編程與算法的邏輯。雖然與之前編程時代相比,大語言模型已經允許用戶通過自然語言與之交互,但是大部分普通用戶仍然會發現,自己的指令并不能產生和專家一樣的結果,甚至產生“想象力焦慮”。[29]為了獲得更好的結果,用戶必須理解人工智能算法的底層邏輯,學習從機器的角度來思考問題。于是會出現一個頗具反諷性的現象,當機器正在模仿和學習人類的表達與思考方式輸出答案的時候,人類卻在模仿和學習機器的運行邏輯。這種雙向傳播適應的結果是,機器變得更像人,而人正在變得更像機器。

有一個段子,說人工智能本來應該幫助人類去洗碗掃地,讓人類有空去寫詩畫畫,但是現在AI開始寫詩畫畫了,而我們還在洗碗掃地。雖然這種說法過于簡單和武斷,但從工作的替代性角度來看,目前在過去人類認為抽象的、高級的腦力勞動方面,人工智能表現得更加出色,人類反過來要學習機器的思維方式與邏輯。這是否是一種新的異化?

其實人類思維機器化并不是突然出現的。早在算法滲透進社會之際,人類思維和行動的算法化就已發生。比如粉絲做數據、打榜、電子商務中的賠本沖量、短視頻等內容生產中的蹭熱點,都是社會算法化的典型表現。[18]尼采曾經有句名言,“我們的書寫工具也參與了我們的思維的過程”,這也是從麥克盧漢到基特勒一直強調的主題。[30]只不過目前人與人工智能的這種通過提示詞進行交互的方式,使這個主題變得更加清晰。

人工智能的知識生產中,第三個值得關注的問題是如何面對經驗的知識與計算知識的混合與標準曖昧的問題。在人類知識的生產歷史上,還存在一條專業精英與大眾對抗的線索。在相當長的歷史時期,精英在知識生產上擁有絕對的主導權。盡管在某些局部,大眾擁有主導權,比如在手工業等實踐領域和民間文化領域,但精英始終掌握著整個社會的知識標準。

在數字媒體時代,大眾生產的知識在數量上和影響力上都對精英生產的知識構成了沖擊,全球范圍內的民粹主義與反智主義盛行。從效果看,這種沖擊有利有弊。它一方面動搖了精英對知識的壟斷權力,另一方面海量信息無法一一核實也帶來了虛假信息的泛濫。盡管數字時代大眾生產的知識在數量上壓倒了精英的知識,甚至在一些局部挑戰了精英知識的權威性(比如維基百科),但是知識的判斷標準仍然掌握在精英手中。

人工智能目前提供的知識,性質非常曖昧,它介于權威的正式知識與日常缺乏根據的非正式知識之間。沒有人為它的質量背書,但是它又被認為具有某種由技術與語料庫賦予的神秘權威性。在即將到來的人工智能時代,隨著機器能力的增強,在某些領域它們將在知識標準問題上對精英提出挑戰。例如當人工智能擁有了海量的病歷庫后,普通用戶也可以自我診斷,醫療人員的權威性就會受到質疑。另一方面,前面討論的常人判斷與機器的幻覺不可避免地會產生完全錯誤或部分錯誤的知識。這將造成經驗的知識與計算的知識、人類的判斷與機器的判斷,這兩種混合的知識同時存在。例如真實的照片與人工智能修改或生成的照片同時存在、真實醫生的建議與人工智能給出的建議并存,哪些是真知,哪些是機器的幻覺,在做出決斷時會變得異常困難。尤其是對于普通人的日常決策而言,由于無法動用大量的資源進行核查,很可能會處于無助狀態。借助人工智能的信息核查體制又會陷入新的標準模糊,因此建立一個公共的、可靠的自動事實核查系統將顯得十分必要。

當然,這并不意味著人工智能參與后知識生產質量降低了,現實可能正好相反,人工智能雖然造成了知識標準的混亂,但是整體上知識的質量可能更高。只不過知識標準的動搖進一步強化了社會的不確定性。至少在人工智能完全成為知識標準的權威之前,人類會經過一個相當迷茫的過渡時期?;蛟S從后人的視角來看,這可能是人類在知識生產方面最后的榮光。

參考文獻:

[1] 光明日報理論部,學術月刊編輯部,中國人民大學書報資料中心. 2023年度中國十大學術熱點[N]. 光明日報,2023-12-29(11).

[2] 劉海龍. 作為知識的傳播:傳播研究的知識之維芻議[J]. 現代出版,2020(4):23-31.

[3] John D. Human Nature and Conduct: An Introduction of Social Psychology[M]. London: George Allen and Unwin, 1922:177-178.

[4] H·L·德雷福斯,S·E·德雷福斯. 造就心靈還是建立大腦模型:人工智能的分歧點[M]//瑪格麗特·博登. 人工智能哲學. 劉西瑞,王漢琦,譯. 上海:上海譯文出版社,2001:417-453.

[5] 尼克. 人工智能簡史[M]. 北京:人民郵電出版社,2017.

[6] 海德格爾. 存在與時間[M]. 陳嘉映,王慶節,譯. 北京:三聯書店,1999:85-90.

[7] 大衛·伊格曼. 大腦的故事[M]. 閭佳,譯. 杭州:浙江教育出版社,2019:103-118.

[8] 彼得·伯克. 知識社會史(下卷)[M]. 汪一帆,趙博囡,譯. 杭州:浙江大學出版社,2016:97-123.

[9] 彼得·伯克. 什么是知識史[M]. 章可,譯. 北京:北京大學出版社,2023:116-145.

[10] 哈羅德·伊尼斯. 傳播的偏向[M]. 何道寬,譯. 北京:中國人民大學出版社,2003:27.

[11] Guzman A L, Lewis S C. Artificial intelligence and communication: A Human-Machine Communication research agenda[J]. New Media & Society, 2019, 22(8): 1-17.

[12] 黑格爾. 黑格爾著作集第3卷:精神現象學[M]. 先剛,譯. 北京:人民出版社,2013:61-83.

[13] 彼得·L. 伯格,托馬斯·盧克曼. 現實的社會建構:知識社會學論綱[M]. 吳肅然,譯. 北京:北京大學出版社,2019:27-158.

[14] J. R. 塞爾. 心靈、大腦與程序[M]//瑪格麗特·博登. 人工智能哲學. 劉西瑞,王漢琦,譯. 上海:上海譯文出版社,2001:92-120.

[15] 威廉·弗盧塞爾. 技術圖像的宇宙[M}. 李一君,譯. 上海:復旦大學出版社,2021:40.

[16] 休伯特·德雷福斯. 計算機不能做什么[M]. 寧春巖,譯. 北京:生活·讀書·新知三聯書店,1986:262.

[17] 讓-弗朗索瓦·利奧塔. 非人:漫談時間[M]. 夏小燕,譯. 重慶:西南師范大學出版社,2019:13-35.

[18] 陳衛星. 智能傳播的認識論挑戰[J]. 國際新聞界. 2021,43(9): 6-24.

[19] 豪·路·博爾赫斯. 巴別圖書館[M]//博爾赫斯文集:小說卷. 王永年,等,譯. ??冢汉D蠂H新聞出版中心,1996:119-127.

[20] 李恪. 超文本和超鏈接[M]. 北京:新星出版社,2021:89-117.

[21] 胡泳. 超越ChatGPT:大型語言模型的力量與人類交流的困境[J]. 新聞記者,2023(8):13-29.

[22] 劉海龍,連曉東. 新常人統治的來臨:ChatGPT與傳播研究[J].新聞記者, 2023(6):11-20.

[23] 徐英瑾. 人工智能哲學十五講[M]. 北京:北京大學出版社,2021:417-418.

[24] 黃旦. 作為人類文明進程動因的媒介——從ChatGPT說開去[J].新聞記者,2023(6):3-10.

[25] 貝爾納·斯蒂格勒. 技術與時間:1.愛比米修斯的過失[M]. 裴程,譯. 南京:譯林出版社,2012:146-195.

[26] 彼得·保羅·維貝克. 將技術道德化:理解與設計物的道德[M]. 閆宏秀,楊慶峰,譯. 上海:上海交通大學出版社,2016:64-81.

[27] 瓦爾·杜謝克. 技術哲學導論[M]. 張卜天,譯. 北京:中信出版集團,2023:123-129.

[28] 雷蒙·威廉斯. 電視:科技與文化形式[M]. 馮建三,譯. 臺北:遠流出版公司, 1994:26-45.

[29] 陳秋心,邱澤奇. “人機互生”時代可供性理論的契機與危機——基于“提示詞”現象的考察[J]. 蘇州大學學報(哲學社會科學版),2023,44(5):172-182.

[30] 弗里德里?!せ乩? 留聲機 電影 打字機[M]. 邢春麗,譯. 上海:復旦大學出版社,2017:233.

Generative AI and Knowledge Production

LIU Hai-long1,2(1.Research Center of News and Social Development, Renmin University of China, Beijing 100872, China; 2.School of Journalism and Communication, Renmin University of China, Beijing 100872, China)

Abstract: Generative AI and revolution in the paradigm of knowledge production are inspiring widespread concern and discussion currently. This paper first analyzes and responds to the argument that AI is incapable of knowledge production, and then explores the characteristics of generative AI knowledge production through a review of the history of knowledge media. The paper argues that there are three different knowledge media, namely, "Library of Babel 1.0", which pursues a comprehensive library collection; "Library of Babel 2.0", which uses a non-linear approach to organize knowledge networks; and "Library of Babel 3.0", which re-generates new books by summarizing the underlying logic of knowledge. The current generative AI is in the phase of the “Library of Babel 3.0”, which breaks the traditional knowledge production method of knowledge search plus reasoning and reconstructs knowledge by imitating human knowledge. This new way of knowledge production is based on statistics, a production of Heidegger's "new Das Man", but it can be creative in eyes of human beings. The knowledge production of human-machine collaboration is an important condition for the creativity of generative artificial intelligence, but this new way of knowledge production is not "thinking" in the traditional sense, and it will lead human to think like machine, as well as creating the potential outcome such as the confusion of knowledge authorities and knowledge standards.

Key words: AI; knowledge production; AI communication

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
當人工智能遇見再制造
2019:人工智能
AI人工智能解疑答問
人工智能與就業
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
人工智能來了
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合