類ChatGPT模型介入國家科技計劃項目評審的應用探討

2024-03-27 03:07陳金輝吳瑞林

科技和產業 2024年5期

宋歡, 陳金輝, 吳瑞林

(1.高技術研究發展中心, 北京 100044; 2.北京航空航天大學人文社會科學學院, 北京 100191; 3.清華大學公共管理學院, 北京 100084)

國家科技計劃是政府支持科技創新、高效配置科技資源的主要途徑,也是加快建設科技強國、實現高水平科技自立自強的關鍵載體。自2014年實施國家科技計劃管理改革以來,改革開放后設立的一批科技計劃被優化整合為布局合理、定位清晰的新五類國家科技計劃體系,包括國家自然科學基金、國家重點研發計劃、國家科技重大專項、技術創新引導專項(基金) 、基地和人才專項[1]。在國家科技計劃項目管理全流程中,項目評審立項環節更加備受關注,因其立項結果往往與科研工作者的科研事業和前途密切相關。隨著項目的數量和種類日益增多,對項目評審的要求也越來越高[2]。近年來,關于項目評審的研究主要聚焦于評審概況分析[2-3]、項目評審方法[4-6]、專家評價模型[7-8]、專家遴選系統和專家庫建設[9-11]等,而結合國家相關政策文件對評審工作中現存的一些瓶頸問題進行深入分析的相關文獻報道較為少見。

近70年來,人工智能(AI)始終被稱作世界三大尖端技術之一,近年來更是取得了飛躍式的發展[12]。2017年7月,國務院印發了《新一代人工智能發展規劃》,強調要抓住人工智能發展的重大歷史機遇,提出了面向2030年中國人工智能發展的戰略規劃[13]。2022年7月,科技部等六部門印發《關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見》的通知,推進人工智能場景創新,著力解決人工智能重大應用和產業化問題,提升人工智能發展質量和水平[14]。2022年年底,美國OpenAI人工智能實驗室發布的ChatGPT成為當今最強大的AI處理模型之一,以極快的速度引起學術界和企業界的現象級關注。全世界的互聯網巨頭都紛紛宣布對標ChatGPT模型開發競品,將這些模型統稱為類ChatGPT模型[15]。類ChatGPT具有卓越的自然語言理解能力和生成能力,在諸多領域都展現出良好的應用前景,如教育教學[16]、編輯出版[15]、情報工作[17]以及學術研究[18]等,但在國家科技計劃項目管理中的應用尚未見報道。那么,該如何利用類ChatGPT的強大功能來解決項目評審工作的瓶頸問題,并盡可能避免其負面影響呢?

為回答上述問題,結合現有的國家政策文件,深入探討中國國家科技計劃項目評審工作中亟待解決的問題,以具體問題作為導向和啟發源頭,基于類ChatGPT的技術優勢提出其在項目評審工作中的4個潛在應用以及可能存在的挑戰,以期為國家科技計劃項目管理工作提供價值參考。

1 國家科技計劃項目評審工作存在的問題

1.1 評審專家的評審行為影響同行評議的公正性

評審專家作為同行評議的主體,其評審意見是國家科技計劃項目立項的重要決策依據,對國家科技資源合理配置起著關鍵作用。研究人員之所以對同行評議的過程感到不滿更可能是對評審專家的質量或者選擇感到不滿[19]。尤其當評審專家沒有認清評審的重要責任和義務,甚至急功近利、面對利益沖突難以維持學術界的純潔,其自身的科研誠信和專業能力必然會受到各方質疑,如此一來對國家科研事業的健康發展將產生很大的負面作用。對此,國家自然科學基金委員(以下簡稱“基金委”)深入調研2015—2019年項目評審的實際情況,向項目申請人和評審專家開展了連續5年的滿意度調查[20]。部分調查結果顯示:超過10%的專家對于不熟悉的申請書選擇“找熟悉項目內容的專家幫忙評審”;項目申請人反饋評審專家對“申請書研究內容的理解有偏差”“評審意見籠統空洞”;在通信評審和會議評審均存在小比例的打招呼現象,等等。這些現象或行為將不同程度地影響項目評審結果,進而影響中國各領域科技發展的進程乃至科技強國目標的實現。

其實,關于評審專家在項目評審中出現的異?，F象或者違規行為早已引起各項目管理部門的重視。中共中央辦公廳、國務院辦公廳于2018年印發的《關于深化項目評審、人才評價、機構評估改革的意見》(以下簡稱《三評改革》)以及教育部、科技部于2020年印發的《關于規范高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》均強調,應對評審專家的實際表現予以記錄,建立誠信檔案或信譽制度等,以嚴格規范評審行為[21-22]?；鹞?018年提出了“負責任、講信譽、計貢獻”的評審機制,對專家評審提出了包括倡導性規范、限制性規范和禁止性規范在內的三類規范性行為,鼓勵項目評審中負責任、講信譽的行為,同時對不負責任、不講信譽的行為實行有效監督,目前已取得了一定的效果[23]。然而,以上所涉及的對評審專家行為的規范和監督機制,其本質還是依靠專家嚴格自律。唯有高度重視和引導專家認清評審過程的神圣不可侵犯,才是解決思想行為不端正的最佳途徑。

1.2 語言差異難以滿足項目評審工作的國際化和開放性需求

合作共享是推動科技創新、迎接全球新科技革命和產業變革的利器。人類要破解共同發展難題,比以往任何時候都更需要國際合作和開放共享[24]。借鑒外籍專家的先進經驗和創新理念、促進對科技創新發展的研判和拔尖創新人才的培養,對于中國國家科技計劃項目管理工作具有重要意義。2017年,為進一步完善國際專家隊伍的建設,科技部研究出臺了《科技部關于推進外籍科學家深入參與國家科技計劃的指導意見》,明確提出鼓勵外籍科學家參與國家科技計劃的頂層設計、項目管理以及研究開發等相關工作的支持意見[25]?！度u改革》強調,在部分前沿與基礎科學等領域逐步按適當比例引入國際同行評價,提高科技評價活動的公開性和開放性,確保評價結果的科學性和客觀性[21]。

然而,科技部在2019年發布的《關于政協十三屆全國委員會第二次會議第2439號(科學技術類139號)提案答復的函》中提到,國家重點研發計劃的在庫專家共計9萬余人,其中外籍專家有1 260多名[26]。由此可見,國家重點研發計劃的項目管理工作還是以國內專家隊伍參與為主。究其根本,很大一部分原因在于語言差異給國際專家隊伍的建設帶來了阻礙。以外籍專家參與評審項目申請書為例,國家科技計劃的項目申請書可能在很長一段時間內都只能以中文為主,由于外籍科學家通常不會說中文更不認識漢字,難以對中文項目申請書進行評閱。由此推斷,目前專家庫中的外籍專家可能基本由外籍華人組成,絕大部分非華人的外籍科學家由于語言不通難以深入參與到國家科技計劃的評審活動中[27]。

1.3 評審專家的評審負荷過重影響評審效率和質量

研究人員尤其是早期研究人員作為評審專家,可以從項目評審工作中挖掘可利用的寶貴資源,及時了解所在領域的前沿動態以及如何開展高質量的研究、寫出有力論據,對于提高科研思維能力和項目申請的命中率有較大幫助。然而,項目評審涉及的知識面既廣又專,即便是評審經驗豐富的專家也不太可能對項目申請書中的所有知識點或技術都精通?；鹞瘜?014—2021年函評專家的評審負荷進行調研。統計結果表明,2020年、2021年被指派項目數在15項以上的函評專家占比分別為60%和35%,指派20項以上的函評專家約為6%[28]。此外,評審專家完成1份面上項目評審的平均時間約2 h,一個月內若評審20份面上項目則需要約34 h[28]。這對于利用工作之余來評審項目的專家來說依然是一項繁重的任務。評審負荷過重可能導致評審疲勞或者缺少足夠的時間和精力閱讀申請書并給出科學合理的意見,影響評審效率和質量。

自2018年以來,科技部、財政部、教育部等先后實施了《貫徹落實習近平總書記在兩院院士大會上重要講話精神開展減輕科研人員負擔專項行動方案》(減負行動1.0)、《關于持續開展減輕科研人員負擔激發創新活力專項行動的通知》(減負行動2.0)和《關于開展減輕青年科研人員負擔專項行動的通知》(減負行動3.0),旨在持續減輕科研人員的負擔,充分激發創新活力[29]。此外,《三評改革》強調,要提高項目評審的質量和效率,合理確定專家的評審項目數量和總時長等工作量[21]。一些項目評審輔助系統的研究成果也致力于減輕專家的評審工作負擔[30]。綜上,為評審專家提供更加人性化、高效率的評審輔助服務,進一步減輕專家的評審負荷,提高評審效率和質量,使專家更加愿意參與項目評審工作,是項目管理專業機構亟待實現的一個重要目標。

1.4 專家庫管理水平亟待提升

專家庫的建設質量是保障項目評審公正性的重要前提,但目前對于專家庫的質量還缺乏評估標準[31]。當前,國家科技計劃專家庫中的專家普遍來源于兩種途徑:一是向各高校院所或企業等集中征集,由專家本人提出申請及單位批量審核;二是將獲得項目資助的負責人直接轉為評審專家。一方面,通過這兩種方式入庫的專家通常為國內專家;另一方面,針對第一種途徑,能否將各領域所有符合評審條件的專家全部入庫,取決于各單位能否將有關專家征集的通知送達每一位潛在的候選專家,以及每一位候選專家是否在規定時間內提出申請。作為專業機構,不應被現有的專家推薦方式以及國界所局限,而應化被動為主動,在全球范圍內海量征集符合條件的專家。尤其是對于偏冷門的學科或前沿交叉領域,小同行專家數量緊缺,更加需要探索多樣化的專家入庫渠道。

此外,有關國家科技計劃專家庫建設的系統研究較少,如在庫專家的分布特點及其優化對策等。2018年,中共中央辦公廳、國務院辦公廳印發的《三評改革》強調應進一步實現國家科技專家庫的規范統一,并細化專家的所在研究領域和方向,便于項目與專家的學術專長進行更精準的匹配[21];2020年,教育部和科技部印發了《關于規范高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》,鼓勵相關部門對專家的實際評審表現等方面進行相應評價,并以此建立專家信譽制度[22];2021年,科技部等13部門聯合發布了《關于支持女性科技人才在科技創新中發揮更大作用的若干措施》,其中強調在各類評審工作中提高女性專家的參與比例,鼓勵更多符合評審條件的女性專家入庫[32]。由此可見,隨著學科領域不斷交叉、新興學科的發展壯大,評審活動也愈發頻繁和復雜,對于專家庫的建設提出了更高的要求,對以上政策文件所提及的專家領域及研究方向劃分、專家反評估和性別比例等方方面面都應進行系統全面的分析、總結與改進,從而更好地實施專家庫動態化管理。

2 類ChatGPT模型概述

國外的ChatGPT和星火認知大模型是類ChatGPT模型的典型代表,其具體介紹如下。

ChatGPT是美國OpenAI人工智能實驗室推出的生成式人工智能模型,于2022年11月上線僅僅兩個月就突破了一億用戶,成為歷史上用戶數量增長最快的應用程序[15]。其先后經歷了多個版本的技術演變,于2023年3月正式發布ChatGPT4.0版本,相對于以前的版本,其數據規模更大、理解能力和文本生成能力等更勝一籌[33]。ChatGPT的成功受益于人類反饋強化學習的訓練方法、超強的算力以及龐大的數據規模,不僅支持上下文理解和連續多輪對話,而且具備強大的邏輯推理能力,敢于質疑和拒絕、承認無知和錯誤,在機器翻譯、對話問答、文本理解與生成(包括小說、劇本和論文等)、語法糾錯、文本摘要以及程序代碼生成等方面都展現出優異的性能,幾乎可以賦能各個行業,吸引了無數的潛在用戶[33-37]。其巨大的發展潛力使得各大企業巨頭瞄準這一商機,如國外的谷歌、微軟以及國內的百度、阿里巴巴、科大訊飛等均在類ChatGPT大模型領域加快布局并已取得飛速進展,這將極大推動類ChatGPT模型及相關產業全面落地開花[15]。

雖然ChatGPT具備較好的智慧功能,但調用國外大模型面臨潛在的政治、經濟及網絡安全等風險,這預示著我國自主研發安全可控的通用認知大模型勢在必行[18]。2023年5月6日,科大訊飛正式發布星火認知大模型,經歷了V1.5、V2.0版本之后,于2023年10月24日正式發布星火認知大模型V3.0,其文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力等七大核心能力持續提升[38]。國務院發展研究中心國研經濟研究院的測評報告顯示,星火大模型V3.0的綜合能力達到了國內領先水平,甚至達到了國際一流水平[39]。與ChatGPT相比,星火認知大模型對于中國用戶來說沒有任何注冊門檻和訪問門檻,數據隱私方面也相對更安全。并且,星火認知大模型的助手中心和插件功能十分強大。

3 ChatGPT在國家科技計劃項目評審中的應用探討

綜合以上有關國家科技計劃項目評審工作的政策分析和所面臨的問題,利用類ChatGPT模型的強大功能對項目管理工作賦能,逐一探討其在項目評審環節中的潛在應用(圖1)?？紤]到國家科技計劃項目評審的數據安全問題,以下將使用國內的類ChatGPT代表——星火認知大模型對相關的內容舉例論證。

圖1 類ChatGPT在國家科技計劃項目評審中的潛在應用

3.1 教育培訓助手

張洪亮等[31]表示,評審專家由于缺乏項目管理經驗,想要對整個資助體系或各項改革措施深入了解需要花費較長時間,否則很難充分理解評審程序以及評審要義,因此對評審專家開展系統性培訓十分必要。更重要的是,評審專家作為國家科技計劃項目的“把關人”,一旦對評審的責任義務認識不清,或在個人利益和作為受托者代表的國家利益選擇上發生信念搖擺甚至信念缺失,極容易影響項目評審的公正性。因此,通過建立系統有效的教育培訓機制,讓專家徹底認清參與評審的真正使命,重視規范自己的評審行為,才能更好地自我監督,有助于形成公正的評審環境。

在現實生活中,評審專家可能很難找到合適的交談對象,來探討有關評審使命、評審行為等敏感、嚴肅而有深度的話題。類ChatGPT能夠提供高度擬人化的對話問答模式,在評審專家教育培訓機制的建立過程中作為教育培訓助手,發揮人文啟蒙以及情感調節的作用,使專家在輕松愉快的互動過程中潛移默化地接受教育培訓[40]。這種擴展能夠觸動評審專家新的人文思考,如善意、公正、教養、理性交往等,影響當下的認知和道德狀況,甚至主導專家的評審態度與行為,促使評審專家客觀理性地看待評審工作,樹立正確的評審觀念。圖2演示了評審專家與星火認知大模型探討“如何更好地拒絕請托行為”的對話過程。整個對話內容不僅展現出評審專家拒絕請托行為所存在的憂慮,而且證明了模型本身擁有多輪對話的記憶功能和正確的三觀,其再三強調評審專家應遵守職業道德和誠信原則,引導評審專家必須公正評審,有助于營造風清氣正的評審環境。此外,未來還可能通過類ChatGPT來收集不同群體個性化特征的大數據,發掘不同評審專家群體在不同階段的需求,從而提供針對性和有效性的教育培訓服務。

圖2 星火認知大模型與評審專家進行互動的示例

3.2 翻譯助手

ChatGPT作為世界上最先進的AI語言模型之一,盡管不是專門為翻譯而設計的,但其擁有超級海量、地道的外文資源,能夠進行順暢對話的語種超過數百種,并已從自然語言文本的語法或句法處理的初級階段升級到邏輯、語義和情感處理的高級階段,提供遠超傳統翻譯工具的靈活性和可靠性[41]。張重毅等[12]對ChatGPT的中英文翻譯表現方面進行了測試,發現其翻譯結果與專業人工翻譯的整體質量不相上下,內容完整準確、表達清晰流暢、語法標準規范,擁有比商業翻譯軟件更自然更出色的實時語言轉換能力,并且還能通過專業詞匯和學科基礎原理的預訓練微調,獲得領域專用的語言轉換器,使跨語種學術交流成為可能。

由此可見,類ChatGPT給項目管理工作帶來了更多的機遇。在其幫助之下,語言將不再成為外籍專家參與中國國家科技計劃項目管理工作的溝通障礙,它將被用作翻譯助手,對中文項目申請書等重要文件進行多語種翻譯,指派給不同國家的評審專家進行評閱,從而實現國際化評審。不僅如此,評審專家還可以利用類ChatGPT對評審過程中想要查閱的外文資料進行翻譯,更加高效高質地完成項目評審工作。圖3所示為本文第一作者上傳的博士學位論文部分中文摘要,要求星火認知大模型將其分別翻譯成英文和法語?？梢钥闯?翻譯內容的語法標準規范、語句完整流暢?？偠灾?類ChatGPT將助力國家科技計劃項目管理工作走向國際化,打造一支開放包容、實力雄厚、具有全球競爭力的國際專家隊伍。

圖3 星火認知大模型為評審專家提供英語和法語翻譯的示例

3.3 評閱助手

評審專家的反饋意見是項目申請人改進課題研究設計、啟發科研思維的寶貴資源。然而,想要為項目申請者或其研究課題提供負責任、有較高參考價值的評審意見,評審專家必須花費較多的精力和時間通讀和把握申請書的精髓,對于不確定或是不熟悉的研究背景需盡快查找相關文獻加以理解。上述工作對于科研任務本就繁重的評審專家來說,無異于進一步加重了工作負擔。

有了類ChatGPT的幫助,評審專家可以通過提問的形式,要求類ChatGPT對申請書和相關文獻提煉核心要點、解釋專有名詞的概念,甚至解答一些綜合性的問題[18]。以本文第一作者的博士學位論文《基于滾環擴增技術的DNA水凝膠的構建及其應用》為例,這篇論文在2019年經過了4位評審專家的盲審,得到的分數分別是93(優)、92(優)、85(良)和77(良)。向星火認知大模型詢問DNA(脫氧核糖核酸)水凝膠的最新進展,它將DNA水凝膠的研究進展高度凝練為6點,即自修復和自適應功能、藥物輸送系統、細胞培養和組織工程、生物傳感、基因編輯、3D打印技術。這些基本是DNA水凝膠近年來的研究熱點,使用戶對DNA水凝膠的概念、功能或應用有快速、清晰的認識。此外,類ChatGPT還能提供輔助評審以及評審意見潤色修改的功能。如圖4(a)所示,星火認知大模型對該論文給出了較為中肯的評審意見,對于每一項評價都能給出充分的理由,與論文盲審的大部分評審意見具有較高的一致性。但如果能針對論文的不足之處給出更加具體、可操作性強的指導意見會更好。需要注意的是,模型本身一直在更新迭代,不是完美的,所提供的答案無法保證百分百正確,需要用戶有辨別的能力。例如,由于其自身的局限性,對論文規范性的理解存在瑕疵,對原本正確的文本可能產生誤判,即第4條關于“亞甲基藍(Methylene Blue, MB),阿霉素(doxorubicin,DOX) ”的內容實際上是正確的。隨后,從4位評審專家的評審意見中挑出一份語言錯誤比較多的評審意見,讓該模型進行潤色修改,結果如圖4(b)所示。該模型不僅修正了多處明顯的語法和標點符號錯誤,而且還對個別詞語進行了合并或替換,讀起來更加流暢,如將“多邊形DNA水凝膠,軟刷型DNA水凝膠以及蜘蛛網型DNA水凝膠”中的3個DNA水凝膠合并為1個,并將逗號改為頓號。

圖4 星火認知大模型為評審專家提供輔助評審以及評審意見修改服務的示例

3.4 專家庫管理助手

為被評項目精準匹配評審專家是保障同行評議質量的關鍵,AI在專家遴選方面的應用尤為矚目且備受期待。然而,由于AI技術本身難度大且應用的實際情況復雜,國內外的項目管理智能化探索尚處于起步階段。自2012年,基金委開始嘗試多種AI方法對已入庫的評審專家和項目進行匹配,目前已通過建立全學科大規模知識圖譜、申請書/評審專家多維學術畫像、基于指派效果反饋的評審專家多層級匹配策略,利用AI實現專家遴選工作[42]。結果表明,AI對學術前沿和關鍵科學問題的了解更加深入,顯著提高了專家指派效率、評審項目共識度和上會率[43]。與其他AI技術不同的是,類ChatGPT能夠使項目管理者通過限定研究領域、國籍等條件,在全球范圍內遴選候選專家并獲取其公開的個人信息,而不僅僅限于已入庫的專家。如圖5所示,星火認知大模型根據提問的要求,推薦了與納米材料研究相關的單位和學者,同時提供了相應的簡介。其中,圖5(b)的兩個問題主要區別在于國籍的限定。如果限定了中國籍,那么所推薦的是中國學者或者華裔學者;如果沒有限定中國籍,那么就所推薦的學者來自全球不同的國家。這對于評審專家的遴選工作有較大的參考價值。如果對所推薦的專家不滿意,還可以通過多輪對話的形式提出進一步的要求,讓類ChatGPT不斷推薦符合項目申請書的候選專家,而無須傾注大量心血組織各單位在全國范圍內征集專家或者建立復雜的模型匹配專家,顯著降低專家庫管理成本的同時提高工作效率。

圖5 星火認知大模型為專業機構推薦評審單位和評審專家的示例

此外,專業機構應加強對專家庫信息的跟蹤調研,在建立評價標準的情況下,一方面從整個專家庫的人數、性別比例、單位類別、領域劃分、反評估結果以及信息更新情況等方面定期評估專家庫的建設質量,另一方面可參考全球最大的同行評議平臺Publons,盡量豐富專家個人數據,如對每一位專家的項目評審數量、命中率和離散率等反評估情況進行分析比較和記錄存檔[31]。針對這類專家庫管理的工作,可以利用類ChatGPT生成相應的PPT(微軟演示文稿文件)模板,節約PPT的構思時間,提高專業機構管理人員的工作效率。如圖6所示,只提出讓星火認知大模型制作一份國家重點研發計劃專家組成分析的PPT模板,模型就能生成一份27頁的PPT模板,連報告的名稱都能自動生成,甚至在沒有任何提示的情況下,就生成了PPT目錄下的6個板塊內容,包括國家重點研發計劃的概述、專家團隊在國家重點研發計劃中的角色、專家團隊的構成和選拔、專家團隊的工作模式和方法、專家團隊的成果和影響、專家團隊的未來發展和展望,每個板塊下還有對應的小標題、文字描述以及插圖。這些內容的設計能夠清晰地展現、提示和指引用戶在專家庫管理工作中需要完成的工作任務,給工作任務的規劃者和執行者帶來很大的啟發。2023年3月16日,微軟公司推出 Microsoft 365 Copilot,即將GPT4.0全面接入Office全套商業軟件,開啟全新的工作方式,通過該技術可以將專家庫的各類數據使用自然語言生成 PPT、在 Excel 中輕松進行趨勢分析、創建可視化圖表等,大大提升工作效率,助力專家庫高效動態管理[44]。

圖6 星火認知大模型為專業機構制作專家庫管理所需的PPT模板的示例

4 挑戰和對策

類ChatGPT在教育培訓、翻譯、評閱和專家庫管理等不同場景的應用,將大幅提升項目評審工作的效率和質量。但是,類ChatGPT技術如同一把雙刃劍,強大的功能之下還隱藏著危機和挑戰。下文從不同角度分別論述并提出相應的對策。

4.1 減弱相關人員從事評審工作的內驅力

類ChatGPT以極低的時間成本為項目管理者和評審專家提供各種便利,與此同時,極易導致他們對類ChatGPT的過度依賴,從而弱化參與評審工作的主觀能動性和創造性。例如,項目管理者利用類ChatGPT批量搜索并生成某個研究領域的專家名單及其相應的專家信息,便依據此名單邀請專家參與評審,可能導致項目管理者忽視對學科分類、研究方向以及項目背景的細節進行深入理解和區分,從而錯失了更優化的專家匹配效果;或者評審專家借助類ChatGPT搜索與項目申請相關的文獻并提取核心內容,爭取在短時間內了解領域前沿,可能會缺少只有認真研讀文獻才能帶來的深刻感悟與啟發。因此,類ChatGPT為使用者提供便利的同時,也容易導致評審工作趨向固化,削弱評審相關人員進一步思考、探索和創新的動力。

針對類似的情況,使用者要清楚地認識到,人類有情感、主動性和創造力,而AI只是模擬和拓展人的智能,始終無法完全替代人腦。因此,應當對類ChatGPT的應用場景和范圍進行限定。例如,可以將一些基礎煩瑣的事務交給類ChatGPT來完成,而一旦涉及想象力、創新性或者需要深入思考的任務則由人類來完成,以此明確人與類ChatGPT的分工,營造人機高度協同的最佳工作模式。唯有一邊主動順應新的技術變革以尋找突破,一邊堅守“以人為本”的核心價值,才能真正促進評審工作的持續發展。

4.2 成為錯誤或虛假信息的批量制造者誤導使用者

實際上,類ChatGPT的準確性遠高于傳統搜索引擎,但由于類ChatGPT的數據源來自海量互聯網數據,包括維基百科、書籍、期刊、社交媒體網站以及網頁爬蟲等,且其本質上仍是根據提示詞概率分布關系生成關聯內容的語言模型,難以保證其所提供的內容全部是真實可靠的[18, 45]。再者,即便類ChatGPT的答案是錯誤的,但它回答問題的語氣卻十分自信,因此使用者在采納類ChatGPT的答案時,應具有一定的辨別和取舍能力。例如,盡管類ChatGPT具有內置道德模型,但其仍可能因為提問形式不同而繞過模型甚至通過有效捕捉網絡上各種真偽難辨的信息,偏離對評審專家進行培訓的初衷。此外,類ChatGPT所提供的答案或道德建議不具有一致性,也可能對評審專家的認知、道德決策等多方面都造成不良影響或嚴重沖擊[46]。

從使用者的角度來看,不僅需要對類ChatGPT所提供的答案保持時刻警醒,而且需要加強批判性思維和倫理意識,在正式采納類ChatGPT生成的內容之前,花費一些時間和精力進行溯源性審查,確保不被其所誤導。此外,在構建數據集時,應過濾篩選掉權威性較低的數據源,如一些社交網站或開放式問答社區。

4.3 類ChatGPT的廣泛應用存在泄露隱私或數據安全的風險

類ChatGPT尚未成為成熟的產品,難以保障用戶的隱私安全和數據安全。OpenAI 官方提示,人工訓練師可能會查看人們與類ChatGPT的對話,以改進系統和模型。但是,從事項目評審工作的重要前提是具備保障項目評審安全的意識,如基金委印發了《國家自然科學基金項目評審回避與保密管理辦法》,規定其相關的工作人員和評審專家應當對評審工作的一些重要信息履行保密義務,包括評審專家名單及基本情況、評審意見、評審結果等。尤其是國外的類ChatGPT模型,很可能導致政府信息和個人信息的大規模泄露,甚至威脅國家安全。

AI技術研發是一項高風險、高投入的工作,需要市場的長期努力和支持。從政策支持上,國家需要選拔一批為夢想而堅持研發的人才,鼓勵他們從事中國版ChatGPT的研發從而降低國外技術依賴,實現技術自主可控性;從管理監督上,應當加強對AI技術的風險數據實時監控并定期進行安全風險評估,同時做好用戶反饋工作,更好地保護用戶隱私和國家數據安全,確保類ChatGPT的安全性和可控性。此外,使用者在對話過程中應避免提及敏感信息或重要數據,有效防范數據外泄。

5 結語

以ChatGPT為代表的AI技術爆發的時代,催化新一輪科技革命和產業變革,成為各行各業數字化、智能化轉型升級的重要驅動力。國家科技計劃項目管理工作中還存在著一些亟待突破的瓶頸,AI技術的出現將成為這些問題的突破口,以顛覆傳統項目管理的模式,使項目管理者和評審專家從基礎、繁重的事務性勞動中解脫出來,擁有更多的時間投身自己感興趣、充滿探索性和創新性的工作任務中,以進一步挖掘自身的潛能,促進個人的可持續發展。

以ChatGPT為代表的AI模型掀起技術狂潮之下,帶來的不只是高效便捷,尚有一些技術性、倫理性和不確定性的難題亟待解決。因此,使用者應始終堅持新興技術的工具價值和客體地位,通過理性、辯證地看待背后的危機和風險,明確使用限度,充分發揮類ChatGTP的正向價值,規避不利后果,使AI技術能夠更好地服務于國家科技計劃項目評審工作。