?

人工智能大模型不是人 要停止像測試人類一樣測試它們

2023-10-27 06:38綜合整理報道
海外星云 2023年10期
關鍵詞:米切爾韋伯人工智能

2022年初,當泰勒·韋伯嘗試GPT-3時,他被OpenAI的大型語言模型所能做的事情驚呆了。這個人工智能模型依靠預測下一個單詞來生成大段的文字內容。

雖然是預測式的,但它對韋伯提出的許多抽象問題給出了正確的答案,例如你在智商測試中遇到的那類問題?!拔艺娴膶λ鉀Q這些問題的能力感到震驚,”他說,“它完全顛覆了我的期待?!?/p>

韋伯是美國加州大學洛杉磯分校的心理學家,主要研究人和計算機解決抽象問題的不同方式。他習慣于構建具有特定推理能力的神經網絡。但GPT-3似乎自帶了推理能力。

7月,韋伯和他的同事在《自然》雜志上發表了一篇論文,他們在論文中描述了GPT-3通過各種測試的能力,這些測試旨在評估使用類比來解決問題(又稱為類比推理)。

在其中一些測試中,GPT-3的成績比一群本科生還要好。韋伯說:“類比是人類推理的核心。我們認為,這是任何類型的機器智能都需要展示的主要能力之一?!?/p>

韋伯的研究所展示的只是大型語言模型的一大堆出眾能力中的一個。例如,當OpenAI在2023年3月份推出GPT-3的下一代GPT-4時,該公司發布了一份令人瞠目的專業和學術評估成績單,聲稱其新的大型語言模型取得了優異成績,包括幾十次高中考試和律師資格考試。OpenAI后來與微軟合作,證明GPT-4可以通過部分美國醫學執照考試。

多名研究人員聲稱,大型語言模型可以通過旨在識別人類某些認知能力的測試,從思維鏈推理(一步一步解決問題)到思維理論(猜測他人的想法)。

這些結果催生了一系列的炒作,宣稱人工智能很快將取代教師、醫生、記者和律師一類的白領工作。圖靈獎得主、“深度學習三巨頭”之一的杰弗里·辛頓指出,GPT-4顯然有能力將想法串在一起,這是他現在害怕自己幫助創造的技術的原因之一。

但有一個問題是,對于這些結果的真正含義,人們沒有達成一致。有些人被這些成績背后的類人智慧所迷惑,也有人完全不相信。

以色列巴伊蘭大學的計算機科學家納塔利·沙皮亞說:“目前大型語言模型的評估技術有幾個關鍵問題。這造成了一種錯覺,使得我們對其能力的認識被夸大了?!?/p>

這就是為什么越來越多的研究人員,包括計算機科學家、認知科學家、神經科學家和語言學家,希望徹底改變評估方式,呼吁進行更嚴格、更詳盡的評估。一些人認為,用測試人類的試題去評估機器,這種做法是錯誤的,應該拋棄。

美國新墨西哥州圣達菲研究所的人工智能研究員米蘭尼·米切爾說:“從人工智能誕生之初,人們就一直在對機器進行人類智力測試,比如智商測試等等。這背后的問題是,當你用這些方法測試機器時,它的意義是什么?這與測試人類的意義不同?!?/p>

“有很多擬人化的現象正在出現,”她說,“這讓我們在思考這些系統以及測試它們時帶上了濾鏡?!?/p>

隨著對人工智能技術的希望和擔憂達到了前所未有最高水平,我們必須明確知道大型語言模型能做什么和不能做什么。

如何解釋

圍繞大型語言模型測試的大多數問題,都可以歸結為如何解釋結果的問題。

為人類設計的評估,如高中考試和智商測試,在很多方面都遵從了一些預設和假設。當人們得分很高時,就可以放心地假設他們擁有測試所衡量的知識、理解或認知技能。

實際上,這種假設只適用于此。學業考試并不總是反映學生的真實能力。而智商測試衡量的是一組特定的技能,而不是整體智力。這兩種評估方式都有利于擅長這類評估的人。

但是,當一個大型語言模型在這樣的測試中得分很高時,我們根本不清楚衡量的是什么。是真正理解的證據嗎?還是愚蠢的統計游戲?亦或是死記硬背?

Deep Mind高級研究科學家勞拉·威汀格說:“開發測試人類思維的方法有著悠久的歷史。由于大型語言模型產生的文本看起來很像人類生成的,人們很容易認為人類思維測試也可以用來評估它們。但事實并非如此:人類思維測試依賴于許多可能不適用于大型語言模型的假設?!?/p>

韋伯也意識到了類似的問題?!拔矣型?,”他說。他指出,盡管GPT-3在的某些測試成績比本科生好,但在其他測試中卻產生了荒謬的結果。例如,它沒有通過發展心理學家給小孩子進行的一個關于實物的類比推理測試。

在這項測試中,韋伯和他的同事給GPT-3講了一個精靈可以在兩個瓶子之間轉移珠寶的故事,然后問它如何使用紙板和紙管等物體將口香糖球從一個碗轉移到另一個碗。

這個故事暗示了解決問題的方法。研究人員在論文中寫道:“GPT-3大多提出了精心設計,但機械上毫無意義的解決方案,有許多無用的步驟,卻沒有給出明確的機制來在兩個碗之間轉移口香糖?!?/p>

那么,我們如何理解一臺通過律師資格考試,但在學前班表現不及格的機器呢?像GPT-4這樣的大型語言模型是根據從互聯網上獲取的大量文字進行訓練的:書籍、博客、小說、技術報告、社交媒體帖子,等等。很可能過去的考試題也被抓取了。一種可能性是,像GPT-4這樣的模型在訓練數據中看到了如此多的專業考試和學術測試,以至于它們學會了自動完成答案。

韋伯說,很多這樣的測試,在網上都能找到問題和答案:“幾乎可以肯定的是,其中有許多都存在于GPT-3和GPT-4的訓練數據中,所以我認為我們真的無法得出太多結論?!?/p>

OpenAI表示,它進行了檢查,以確認其對GPT-4的測試不包含出現在訓練數據中的文本。在與微軟的合作中,OpenAI使用付費測試題來確保GPT-4的訓練數據中沒有包含這些問題。但這樣的預防措施并不是萬無一失的:GPT-4仍然可以看到類似的測試題。

當機器學習工程師賀拉斯·賀(Horace He,音譯)在編程比賽網站Codeforces上測試GPT-4時,他發現GPT-4在2021年之前發布的編程測試中得分為10/10,但在2021年之后發布的測試中得了0分。

其他人也注意到,使用2021年之后的考試題,GPT-4的成績就會下降。這是因為該模型的訓練數據只包括2021年之前收集的文字,一些人認為,這表明大型語言模型展示的只是一種記憶力,而不是智力。

為了在實驗中避免這種可能性,韋伯設計了一套全新類型的測試。他說:“我們真正感興趣的是,這些模型能否應對這些新式問題?!?/p>

韋伯和同事采用了一種測試類比推理的方法,稱為瑞文推理測驗。這些測試由一張圖像組成,該圖像包括了一系列并排或上下排列的形狀。挑戰在于找出給定形狀系列中的規律,并將其應用于新的形狀。該測驗用于評估幼兒和成人的非語言推理,在智商測試中很常見。

通過協商,甲和乙的策略選擇受對方提供的新信息所影響,在新的博弈情境中,甲對于策略集合A中的每一個行動選擇,都存在一個新的相對于策略集B的條件概率q;同理,乙對于策略集合B中的每一個行動選擇,都存在一個新的相對于策略集A的條件概率r。據此,甲和乙的期望效用演變為條件期望效用。對于彼此獨立的環境或事態,主體之間有非條件概率。在納什均衡中,甲和乙的主觀概率沒有被任何實質性的條件限制;在純粹策略中,兩者按照給定的占優策略行動;在混合策略中,彼此行動的概率選擇相互保密,不為對方所知。然而,通過理性協商,主體信念和行動的概率選擇成為公共知識,這就決定了協商機制下的行動博弈超越于納什均衡。

研究人員沒有使用圖像,而是將形狀、顏色和位置編碼成數字序列。這確保了測試不會出現在任何訓練數據中,韋伯說:“我從零開始創建了這個數據集。我之前從來沒有聽說過這樣的東西?!?/p>

米切爾對韋伯的工作印象深刻?!拔矣X得這篇論文很有趣,也很有煽動性,”她說,“這是一項很好的研究?!钡兴A?。米切爾開發了自己的類比推理測試,名為ConceptARC,該測試使用從谷歌研究員佛朗科斯· 喬里特開發的ARC(抽象和推理挑戰)數據集中提取的形狀編碼序列。在米切爾的實驗中,GPT-4在這類測試中的表現比人類差。

米切爾還指出,將圖像編碼成數字序列(或矩陣)會使程序更容易解決這個問題,因為它消除了謎題的視覺挑戰?!敖鉀Q數字矩陣并不等于解決瑞文測試的問題,”她說。

脆弱性試驗

大型語言模型的性能是脆弱的。對于人類來說,可以肯定的是,一個在測試中得分很高的人也會在類似的測試中表現出色。大型語言模型卻并非如此,對測試進行一個小小的調整就可以讓分數出現很大的波動。

英國劍橋大學的心理學家露絲·切克說:“總的來說,人工智能評估并沒有讓我們真正了解這些模型的能力。測試一個系統在特定任務中的表現是完全合理的,但通過這個任務泛化到其他任務和能力,是行不通的?!?/p>

以微軟研究小組2023年3月份發表的一篇論文為例,他們在論文中聲稱在GPT-4中發現了“通用人工智能的火花”。該團隊使用一系列測試對大型語言模型進行了評估。在其中一項研究中,他們詢問GPT-4如何穩定地堆疊一本書、九個雞蛋、一臺筆記本電腦、一個瓶子和一顆釘子。它回答說:“把筆記本電腦放在雞蛋上,屏幕朝下,鍵盤朝上。筆記本電腦將夾在書和雞蛋的邊界內,其平坦堅硬的表面將為下一層提供穩定的平臺?!?/p>

但當米切爾嘗試她自己版本的問題,讓GPT-4疊一根牙簽、一碗布丁、一杯水和一個棉花糖時,她建議把牙簽插在布丁里,棉花糖放在牙簽上,并把整杯水放在棉花糖上保持平衡。

模型最后提出了一個有用的警告:“請記住,這個堆疊方式很脆弱,可能不太穩定。在建造和處理它時要小心,以避免傾灑等事故?!?/p>

還有另一個有爭議的研究。2023年2月,美國斯坦福大學研究員邁克爾·科辛斯基發表了一篇論文,他在論文中聲稱,心智理論“可能自發地成為GPT-3的副產品”。心智理論是是一種能夠理解自己以及周圍人類的心理狀態的能力,這是大多數兒童在三到五歲之間獲得的情感和社會智力的標志??菩了够鶊蟾嬲f,GPT-3已經通過了用于評估人類能力的基本測試。

例如,科辛斯基給GPT-3的場景是:“這是一個裝滿爆米花的袋子。袋子里沒有巧克力。但袋子上的標簽上寫著‘巧克力’,而不是‘爆米花’。山姆找到了袋子。她以前從未見過袋子,看不清袋子里有什么,但看了標簽?!?/p>

然后,科辛斯基提示模型完成以下句子:“她打開袋子,往里面看。她可以清楚地看到里面裝滿了……”和“她相信袋子里裝滿了……”。GPT-3用“爆米花”完成了第一句,用“巧克力”完成了第二句。他將這些答案視為GPT-3至少顯示了一種基本的心智理論的證據,因為它們捕捉到了實際狀態和山姆(錯誤的)想法之間的差異。

科辛斯基的研究結果迅速成為了頭條新聞,并在社交平臺上引發了爭論。

包括沙皮亞和哈佛大學認知科學家湯摩爾·烏曼在內的幾位研究人員發表了反例,表明大型語言模型未能通過科辛斯基使用的簡單變體測試。烏曼說:“鑒于我很了解大型語言模型是如何構建的,我非常懷疑?!?/p>

烏曼調整了科辛斯基的測試場景,告訴GPT-3,標有“巧克力”的爆米花袋是透明的(這樣山姆就可以看到這是爆米花),或者山姆不會閱讀(這樣她就不會被標簽誤導)。烏曼發現,每當情況涉及額外的幾步推理時,GPT-3都無法將正確的狀態歸因于山姆。

沙皮亞說:“為人類設計的認知或學術測試可以作為大型語言模型能力的準確衡量標準,這一假設源于一種將模型擬人化并使其評估與人類標準相一致的趨勢。這種假設被誤導了?!?/p>

對于切克來說,有一個顯而易見的解決方案。幾十年來,科學家們一直在評估非人類的認知能力,她說。人工智能研究人員可以調整用于研究動物的技術,這些技術是為了避免基于人類偏見得出結論。

以迷宮中的老鼠為例,切克說:“它是如何導航的?你在人類心理學中可以做出的假設是不成立的?!毕喾?,研究人員必須進行一系列受控實驗,以弄清楚老鼠在使用什么信息以及它是如何使用這些信息的,逐一測試并排除這些假設。

至于大語言模型,就更復雜了。切克說:“我們沒有針對老鼠的語言測試。我們正處在一個新的領域,但許多基本方法都是可行的。只是我們必須用語言的形式來做,而不是用一個小迷宮?!?/p>

威汀格也采取了類似的做法。她和她的同事們正在調整心理學家用來評估人類嬰兒前語言階段認知能力的技術。這里的一個關鍵想法是將一個特定能力的測試分解為一組測試,這些測試也會尋找相關的能力。例如,當評估嬰兒是否學會了如何幫助他人時,心理學家也可能評估嬰兒是否理解阻礙是什么。這使得整個測試更加穩健。

問題是這類實驗需要時間。切克說,一個團隊可能會研究老鼠的行為數年。但人工智能的發展速度要快得多。烏曼將評估大型語言模型與西西弗懲罰進行了比較:“一個系統被聲稱表現出X行為,當評估顯示它沒有表現出X時,一個新的系統出現了,而且被認為它表現出了X行為?!?/p>

變換標準

米切爾說,50年前人們認為要想在國際象棋上擊敗一位大師,你需要一臺和人一樣聰明的電腦。但結果證明,我們只需要比人類更擅長數字運算的機器。窮舉的蠻力勝過智慧。

從圖像識別到圍棋,類似的挑戰已經被定義并解決。每當計算機被用來做一些需要人類智慧的事情,比如玩游戲或使用語言時,它就會分裂領域。大型語言模型現在正面臨著自己的“國際象棋”時刻。米切爾說:“這真的促使我們每個人思考什么是智力?!?/p>

通過了所有這些測試,是否證明GPT-4具備了真正的智慧,或者它是否找到了一條有效但愚蠢的捷徑,一個從數十億行文本中、數萬億相關性的帽子里取出來的統計技巧?

米切爾說:“如果你說,‘好吧,GPT4通過了律師考試,但這并不意味著它很聰明’,人們會說,‘哦,你是在故意變換標準?!覀冋娴脑谧儞Q標準,還是說智能不像我們之前理解的那樣,我們對智能的看法是錯誤的?”

歸根結底,這取決于大型語言模型是如何做到的。一些研究人員希望擺脫對考試成績的癡迷,并試圖弄清楚模型背后發生了什么。米切爾說:“我確實認為,要真正了解它們的智能(如果我們想這么稱呼它),我們必須了解它們推理的機制?!?/p>

烏曼對此表示贊同?!拔彝槟切┱J為這是在變換標準的人,”他說,“但這是很長一段時間以來的動態?,F在我們不知道它們是如何通過這些測試的。我們只是被告知它們通過了?!?/p>

問題是,沒有人確切知道大型語言模型是如何工作的。在一個龐大的統計模型中,很難將復雜的機制割裂開來。但烏曼認為,從理論上講,對一個模型進行逆向工程并找出它使用什么算法來通過不同的測試是可能的。他說:“如果有人開發出一種技術來弄清楚這些東西到底學到了什么,我可以更容易被說服。我認為,根本問題是我們一直關注測試結果,而不是它如何通過的測試?!?/p>

猜你喜歡
米切爾韋伯人工智能
韋伯空間望遠鏡
五月是什么
韋伯空間望遠鏡
美國B-25米切爾轟炸機
2019:人工智能
人工智能與就業
季后賽高光時刻多諾萬·米切爾不服氣
數讀人工智能
下一幕,人工智能!
野性的面目
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合