?

智能方法作為“第五范式”:人工智能時代科研范式的“新物種”

2024-02-27 02:03顏世健喻國明
學術探索 2024年1期
關鍵詞:科學研究范式人工智能

顏世健,喻國明

(北京師范大學 新聞傳播學院,北京 100875)

一、AI for Science:智能技術與科學研究的耦合

科學研究的目的是對于事物本質的研究和探索,如今人工智能開始越來越多地融入科學發現中,加速了科學研究的進程,幫助科學家提出假設、設計實驗、收集和解釋大量數據,并獲得傳統科學方法難以實現的洞見。(1)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).當生成式AI正在深度嵌入社會的千行百業,當人工智能技術與科學研究相遇時,“AI For Science”的概念應運而生。AI for Science,也被稱為科學智能,是指利用人工智能的技術和方法,去研究、模擬、預測和優化自然界和人類社會的各種現象和規律。智能技術與科學研究的耦合可以幫助科學家們更深入地理解自然和人類社會,推動科學發現和創新。

現代科學發展的主要困境之一在于“維數災難”,即隨著自由度的增加,計算復雜度呈指數增加。計算的復雜性源于數據的爆炸式增長,在生物學、天文學、社會科學等領域,數據的收集和存儲已經超出了人類的分析和理解能力。(2)李萬,鄒蕓.數字技術與數字經濟:從無盡前沿到創新策源[J].科技智囊,2023,(09).傳統的數學方法在處理高維度的復雜問題時往往費時又費力,即便是在高性能計算機的輔助下仍然難以克服維度增加所帶來的計算困境。但隨著AI技術在科學研究中的應用,特別是深度學習(Deep Learning)的應用,讓科學研究的計算困境遇到了破局的曙光。深度學習可以通過構建人工神經網絡(Artificial Neural Network)的方式自動地從大量的數據中提取特征和模式,從而實現對數據的高效處理和挖掘,使得那些復雜、高維度和多變量的問題逐漸變得可及??傮w來看,人工智能在科學研究的破局點在于通過深度學習等技術分析處理多維度、多模態、多場景下的模擬和真實數據,解決復雜推演等計算問題,加快科學研究的發現、驗證和應用。

“AI For Science”如今已經在科學實踐領域取得了令人矚目的成果。例如,在生物科學領域,谷歌旗下的DeepMind公司開發的AlphaFold2系統利用深度學習對蛋白質折疊結構進行預測。這是第一種在已知沒有相似結構的情況下構建高分辨率預測的方法,可以在幾分鐘內預測由人類基因組編碼和20個模式生物的幾乎所有已知蛋白,并精確到原子級。(3)Callaway E. DeepMind’s AI predicts structures for a vast trove of proteins[J]. Nature, 2021,595(7869).AlphaFold2顛覆了蛋白結構解析,這種變革性方法破解了50年來困擾生物醫學研究領域的困境,開啟了計算生物學的新時代。這些結果充分展示了生命科學的AI基礎模型在理解和生成蛋白質序列方面的強大能力和廣闊的應用前景,從而加速了與之相關的藥物設計、酶催化、蛋白質結合、配體設計等領域的研究。

隨著AI技術的不斷發展,生命科學大模型和蛋白質生成等領域的成果將會不斷向其他學科開枝散葉,為整個科學界提供更多的工具和方法來解決現實世界中的復雜問題。作為新興的科學問題解決方案,以AI支撐前沿科技發展的新模式正在改變科學研究的方式,加速科學發現的進程,引發了科學研究范式的新革命,并產生廣泛的社會影響。(4)李建會,楊寧.AI for Science:科學研究范式的新革命[J].廣東社會科學,2023,(06).在此判斷之上,我們需要看到人工智能作為媒介在科學研究中的功能統合作用和跨學科的知識整合價值。為了更清楚地探究以技術為導向的人工智能在學術研究領域的媒介價值和革命性突破,需要將其與現有的科學生產流相結合來分析。結合AI for Science的概念和AI引導科研工作的不同層面,我們將這種AI技術對學術生產的賦能定義為智能科學范式。

二、智能科學范式的概念與基本內容

(一)智能科學范式的概念

以大語言模型為基礎的智能科學范式,不僅僅是一種技術工具,更是一種全新的知識生產方式和實踐規范。它將AI技術引入到科研工作流中,通過人機協同的方式,對自然和人類社會規律進行深入學習和探索。在智能科學范式中,人機協同是關鍵,即研究者與大語言模型相輔相成,相互促進。模型通過大規模學習和信息處理為研究者提供龐大的知識庫和有價值的建議與預測,而研究者則通過人類的創造性思維和專業知識,對模型的輸出進行指導和優化。這種協同方式不僅提高了科研效率,還使得科研更加精準和深入。

智能科學范式不僅僅局限于傳統學科的研究,更開啟了跨學科合作的新時代,使得各領域的專家能夠借助大語言模型的智能分析和綜合能力,快速獲取和理解其他領域的前沿知識,從而推動科學研究的全面協同和創新發展。這種深度融合的模式不僅拓展了科研思路,也為解決復雜問題提供了更為全面和高效的途徑,為人類在各個領域取得更為深遠的突破奠定了基礎。

圖1 智能科學范式的基本內容

此外,通過與模型的互動和協同學習,研究者能夠審視自身的研究偏好、認知偏差以及潛在的盲點。大語言模型作為研究輔助,不僅可以提供對已有知識的系統性理解,還能夠幫助研究者挖掘和理解潛在的概念關聯,從而拓展其認知邊界。通過模型的智能分析,研究者能夠獲取更為全面和深入的知識結構,發現平常容易被忽視的模式和關聯。這種對知識的深層理解有助于研究者超越傳統思維模式,拓展自我認知的邊界。

根據以上的分析,本文將智能科學范式的概念定義為:將AI技術作為增強工具介入科研工作流,以人機協同和跨學科的方式去學習、模擬、預測自然和人類社會規律的一種知識生產規范,通過提升科研效率與精準度的方式來不斷深化人的自我認知。

(二)智能科學范式的基本內容

智能研究方法貫穿于科學研究工作流的全過程,具體來說可以分為功用層、研究層和思維層。

1.功用層:效率提升與理解增強

功用層的AI賦能主要體現為文獻閱讀和學術寫作過程中的輔助性增強。首先,文獻閱讀環節的智能支持包括智能翻譯、對話式輔助閱讀和文獻資源管理等,可以幫助研究者更有效率地進行知識吸收。在文獻管理方面,一些基于生成式AI的工具根據用戶發出的指令可以跨語言和跨數據庫地檢索相關文獻,將最大范圍內的代表性文獻進行匯總和整理后呈現在用戶面前。(5)Golan R, Reddy R, Muthigi A, et al. Artificial intelligence in academic writing: a paradigm-shifting technological advance[J]. Nature Reviews Urology, 2023.基于對用戶的閱讀習慣和興趣點的自動學習和識別,生成式AI可以個性化推薦相關文獻,幫助用戶更快地找到潛在的有價值的研究資料。在文獻閱讀的過程中,生成式AI可以幫助用戶實現精細化閱讀,實現快速檢索、AI文本分析、論文追蹤、高亮解讀以及解讀數學和表格等,不僅提升了閱讀文獻的速度,更有助于高效地進行特定主題的結構化閱讀和系統化研究。如Zotero-GPT可以幫助用戶在閱讀一定數量的文獻后自動生成報告,報告包括文獻的概述、主要觀點、研究方法和結果等方面的內容,有助于用戶更好地了解文獻的整體情況,為后續的研究提供參考。

其次,學術寫作環節的智能支持包括輔助寫作、智能校對、文章潤色等。目前,許多科研輔助工具如智能寫作平臺和語言校對軟件已經廣泛運用于學術領域。這些工具基于自然語言處理技術,能夠自動生成文稿、修正語法和拼寫錯誤,甚至提供邏輯一致性檢測。對于科研人員來說,這些AI工具能夠極大地提高論文書寫的效率,降低語言錯誤率,從而為提升論文質量提供有力保障。以寫作潤色功能為例,在知識推理上,生成式AI能模擬人腦思維方式并持續優化思維能力,通過思維鏈(Chain-of-Thought,CoT)完成一系列復雜推理任務。用戶只需提供推理的前提和目的,它就能生產出邏輯一致的文本內容,高度還原客觀知識本身。在知識表達上,生成式AI能夠基于推理過程連貫地表達學術觀點,通過解讀人類模塊化撰稿的各種特征,模仿不同學者內容創作的特色進行續寫,或根據不同期刊的風格對論文進行改寫和潤色。(6)盧宇,余京蕾,陳鵬鶴,等.生成式人工智能的教育應用與展望——以ChatGPT系統為例[J].中國遠程教育,2023,43(4).

2.研究層:邊界突破與能力躍升

生成式AI在研究層的賦能指人工智能在科研實踐流程的介入。盡管科學實踐和程序在科學研究的各個階段有所不同,但人工智能算法的發展跨越了傳統上孤立的學科,增強了科學研究的設計和執行。研究人員可以通過人工智能技術來優化參數和功能,自動化收集、可視化和處理數據的程序,探索候選假設的廣闊空間以形成理論,生成假設并估計其不確定性以提出相關實驗??茖W界目前較為認可的AI賦能科研流程的環節包括數據收集與管理、數據表征、假設生成和實驗模擬。(7)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).

(1)數據收集與管理(Data Collection and Curation)??茖W發現和理論的形成基于數據的收集、轉化和理解,隨著實驗平臺收集的數據規模及復雜性不斷增加,要想選擇性地存儲和分析高速生成的數據,必須依賴實時處理及高性能計算 (HPC)。AI在數據處理中主要的方向包括數據選擇(Data selection)、數據標注(Data annotation)、數據生成(Data generation)和數據精化(Data refinements)。如在數據選擇方面,以粒子碰撞實驗為例,其每秒生成的數據量超過100TB,對現行數據傳輸和存儲技術構成了巨大壓力。這類實驗要求實時檢測并過濾掉99%以上的無關元數據。深度學習、自動編碼器等先進技術方法的應用,能有效識別科研過程中的異常事件,從而顯著降低數據傳輸和處理的負擔。(8)Karagiorgi G, Kasieczka G, Kravitz S, et al. Machine learning in the search for new fundamental physics[J]. Nature Reviews Physics,2022,4(6).

(2)有意義的數據表征(Meaningful representations of scientific data)。深度學習能夠在多層次上提取科學數據的有意義的表征,并優化這些表征以指導研究。高質量的表征應該盡可能地保留數據相關信息,同時保持簡潔和易于訪問。(9)Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.目前滿足這些要求的幾種新策略包括幾何先驗(Geometric priors)、自監督學習(Self-supervised learning) 、神經算子(Neural Operators)及語言建模(Language modelling)。以自監督學習為例,他可以使模型能夠在不依賴明確標簽的情況下,了解數據集的通用特征。他可以作為一個關鍵的預處理步驟,在微調模型執行下游任務前,從大規模未標注數據中學習可轉移特征,這樣預先訓練好的具有廣泛科研領域理解力的模型是通用的預測器,可以適應各種任務,從而提高標簽效率,超越了純粹的監督方法。(10)Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972).

(3)假設生成(Generation of Hypotheses)??沈炞C的假設是科學發現的核心,制定有意義的假設可能是一個漫長的過程。人工智能方法在假設生成的過程中發揮重要作用。比如,人工智能系統能夠從嘈雜的觀測數據中識別出潛在的符號表達式,進而生成假設。再如,人工智能系統也能夠學習假設的貝葉斯后驗分布,并利用這一知識生成與科學數據和現有知識相兼容的假設。(11)Guimerà R, Reichardt I, Aguilar-Mogas A, et al. A Bayesian machine scientist to aid in the solution of challenging scientific problems[J]. Science advances,2020,6(5).

最近的研究表明,無監督語言人工智能模型有可能捕捉復雜的科學概念,即將文獻中已有的知識以數學形式進行表達,這表明未來潛在知識的發現可能嵌入在過去的出版物中。(12)Tshitoyan V, Dagdelen J, Weston L, et al. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763).具體而言,科學文獻中潛藏著隱含的知識與關聯,這可以通過對文獻進行深度挖掘和分析來揭示。文獻不僅僅承載著已知的知識,而且還可以作為新知識及關聯的發掘來源。盡管文獻中的知識大多基于先前的研究成果,但其中仍存有大量未被充分挖掘或發現的信息,這些信息有可能催生新的科學發現。這種基于文獻的發現(Literature-based discovery,LBD)的人工智能方法通過剖析和整合文獻中的信息,探尋不同領域和概念間的聯系,以揭示之前未被察覺的關聯和知識。(13)How artificial intelligence can revolutionise science. (n.d.). The Economist. Retrieved December 15, 2023, from https://www.economist.com/leaders/2023/09/14/how-artificial-intelligence-can-revolutionise-science此外,LBD系統不僅能夠提出新的研究假設,還能識別潛在的知識聯系,推動跨學科的合作。目前,LBD系統的應用范圍正在不斷擴大,已經涵蓋了表格、圖表和數據等各種類型的文獻處理,為科研人員提供更為全面的支持。

(4)實驗與模擬(Experimentation and Simulation)。通過實驗評估科學假設是科學發現的關鍵環節,以強化學習為代表的AI技術可以提供實驗設計和優化工具,這些工具可以增強傳統的科學方法,減少所需的實驗數量并節省資源。具體而言,強化學習能夠幫助研究者改進實驗設計、提高實驗效率,并更好地探索數據以驗證或拒絕假設,并逐步搭建模型。如在實驗設計的初期階段,強化學習能夠優化實驗設計,協助確定關鍵參數和采樣策略,以最大化信息獲取。而作為智能代理,強化學習還能根據先前的實驗結果和模型反饋,動態調整實驗策略,從而更迅速地完成假設檢驗。對于復雜的假設檢驗,如因果關系分析,強化學習有助于優化模型的參數設計,增強模型與數據的適配性。同時,強化學習可以結合深度學習和因果推理方法,為進一步的假設檢驗和研究方向提供有力指導。具體的應用案例如機器人科學家(Robot Scientist),它指的是通過機器人和人工智能技術進行科學實驗和研究的系統。機器人科學家們可以通過數據、研究論文和專利的形式獲得有關特定研究領域的背景知識,然后生成假設、執行實驗、評估結果,最終發現新的科學知識。

3.思維層:認知拓展與主體性覺醒

人工智能浪潮被認為是第四次工業革命,是在實現機械化、規?;?、網絡化的基礎上,促進工業邁向智能化的新階段。工業革命,即因核心技術創新和重大需求變動而對工業生產體系產生深刻而廣泛的影響,使得工業體系在支柱產業部門、生產組織方式、價值分配模式方面發生了革命性變化。從工業革命的內涵來看,第四次工業革命的主導技術和主導產業已經開始形成。(14)李萬,鄒蕓,錢婭妮.第四次工業革命興起、發展與影響——從人的能力延伸以及科技進步速率波動的視角[J].中阿科技論壇(中英文),2023,(07).縱觀人類歷史上的三次工業革命,根據麥克盧漢“媒介是人的延伸”的視角,前三次工業革命中的技術都是對人類身體的“延伸”。如第一次工業革命中蒸汽機提供的機械動力是對雙手的“延伸”,改變了人類生產創造的效率;第二次工業革命中內燃機是對雙腳的“延伸”,拓展了人類的活動空間;第三次工業革命中信息技術是對感官的“延伸”,增強了人們獲取信息的能力。而以人工智能為代表的第四次技術革命則是對人類大腦的“延伸”,將會拓展人類的思維能力和認知邊界,提升發現問題的能力并實現進一步的心智進化。

人工智能是人腦力對象化的產物。AI的研發過程就是一部不斷鞏固、放大和提升人類主體性的歷史,人工智能在未來的每一點進步,都是對人本質力量的再一次確證。(15)張勁松.人是機器的尺度——論人工智能與人類主體性[J].自然辯證法研究,2017,33(01).在人工智能發展的過程中,我們可以通過不斷地對人工智能進行研究和改進,提高AI的智能水平和應用范圍,讓AI更好地為科學研究服務。同時,我們也在與AI日益深入的共存中不斷拓展自身認知的邊界,實現自我心智的進化。人與機器的主體間性思辨長期以來都是備受爭議的哲學問題,生成式AI所帶來的生存隱憂其實恰恰激活了全社會領域對于人性的觀照。這樣的自我反思與觀照,是人類在技術革命歷史上的一種必然,也是科技文明即將發生轉向時人類的一種自我“賦意”和主體性覺醒。

三、科學研究的第五范式

范式(Paradigm)這一概念最初由美國著名科學哲學家托馬斯·庫恩1962年在《科學革命的結構》中提出來,指的是常規科學所賴以運作的理論基礎和實踐規范?!胺妒健奔却碇粋€特定共同體成員共有的信念、價值等構成的整體,又代表著這個整體的某種精神要素,指引著這個共同體的功能?!胺妒健痹诒举|上是一種知識生產方式和知識存在方式,是科學共同體的世界觀基礎和方法論遵循,為科學共同體提供研究根據、實踐標準和價值方向。作為知識生產方式,“范式”集中表現為科學共同體對知識本體的基本觀念和共有信念,指引著知識生產主體的實踐方式選擇與認同;作為知識存在方式,“范式”在知識生產實踐的結果上承載著知識產品的形式和內容,表現為特定的知識話語體系。

科研范式是常規科學所賴以運作的理論基礎和實踐規范,隨著科學的發展以及外部環境的推動不斷發生變化。由于科學家對科學研究范式的信奉受到時代認知的局限性,某種科學研究范式總會在科學發展到一定程度后顯示出不足而無法解決一些問題,出現困難、矛盾和困惑,這種矛盾推動了科學家們的反思和進一步探索,進而逐漸形成新的科學研究范式。

計算機圖靈獎得主吉姆·格雷(Jim Grey)提出了科學研究范式發展的四個階段:實驗科學范式、理論科學范式、計算科學范式和數據科學范式。

(一)科學研究范式的演進1.經驗科學范式(Experimental Paradigm)

經驗科學范式應用于人類最早的科學研究,主要以記錄和描述自然現象為特征,是以經驗主義和人的深度思考為主導的科學研究范式。從原始的鉆木取火,發展到后來以伽利略為代表的文藝復興時期的科學發展初級階段,經驗科學范式作為人類科學研究的早期范式為人類開啟了現代科學之門。

在研究方法方面,經驗科學范式主要采用歸納法,通常涉及較多的盲目性觀測和實驗。在科學發展的早期階段,經驗科學方法在生物和化學領域尤為常見。如17世紀的科學家弗朗西斯·培根提出的歸納主義科學模式,他強調科學必須是實驗的、歸納的,所有真理都必須以大量確鑿的事實材料為依據。(16)弗蘭西斯·培根.新工具;方法論;人是機器[M].北京:中國社會出版社,1999.他還提出了一套實驗科學的“三表法”,即尋找因果聯系的科學歸納法。這種方法認為要把握自然,必須對自然加以分離和分解,要把事物分解為它的組成因素去加以認識。在培根看來,事物是許多簡單性質的組合和結合,要把握事物的簡單形式,就需要把它們從組成同一事物的其他性質中分離出來,加以考察研究。(17)張峰.論培根歸納邏輯[J].遼寧大學學報(哲學社會科學版),2008,36(2).

2.理論科學范式(Theoretical Paradigm)

理論指人類對自然、社會現象按照已有的實證知識、經驗、事實、法則、認知以及經過驗證的假說,經由一般化與演繹推理等方法,進行合乎邏輯的推論性總結從范式發展的角度來看,當實驗條件不具備時,第一范式的研究方法可能無法滿足研究的需要。因此,為了更精確地研究自然現象,新的科學研究范式應運而生。第二范式是以建模和歸納的理論學科和分析為主導的科學研究范式。與依賴觀察和實驗的第一范式相比,第二范式的科學理論需要更深入地理解自然界的規律,并對其背后的原理進行解釋。因此,理論科學更注重理論總結和理性概括,強調具有較高普遍性的理論認識,而非直接實用意義的科學。在研究方法上,理論科學以演繹法為主,不僅局限于描述經驗事實。

3.計算科學范式(Computational science Paradigm)

隨著理論研究的深入,驗證理論的難度和經濟投入也越來越大,第二范式面臨重大瓶頸和挑戰,迫切需要提出新的科學研究范式,第三范式應運而生。第三范式被稱為計算科學范式,是以計算和模擬為主導的科學研究范式,由1982年諾貝爾物理學獎獲得者肯尼斯·威爾遜(Kenneth Wilson)提出并確立。20世紀后半葉,伴隨高性能計算機和基于大規模并行計算的計算機體系結構的發展,科學家嘗試在理論模型指導下,利用計算機設計數值求解算法、編寫仿真程序來推演復雜理論、模擬復雜物理現象。借助計算機的巨大算力,科學家可以精確地、大規模地求解方程組,進而去探索那些無法通過實驗法和理論推導法解決的復雜問題。(18)周剛,王銳,李凱文,等. 覺悟ChatGPT,科研第五范式即將來臨[J]. 中國科技成果,2023,24(12).

4.數據密集型科學(Data-Intensive Paradigm)

第三范式是先提出可能的理論,再搜集數據進行仿真計算和驗證,然而隨著科學的發展和環境的變化,人們可能已經擁有了大量的數據,但難以直接提出可能的理論,此時第三范式的指導意義就會顯得比較有限,需要開發或總結新的科學研究范式。第四范式是以數據驅動為主導,也被稱為數據密集型范式,是通過數據和算力探索前沿的科學研究范式。它與第三范式的區別在于,隨著數據量的高速增長,計算機不僅僅局限于按照科學家設定的程序規則開展模擬仿真,還能從海量數據中發現規律,形成基于關聯關系的科學理論,其本質是通過海量數據的收集代替人類傳統的經驗觀察過程,借助機器的高算力代替人類的歸納推理,從而實現遠超經驗范式的理論歸納能力。(19)周剛,王銳,李凱文,等. 覺悟ChatGPT,科研第五范式即將來臨[J]. 中國科技成果,2023,24(12).第四范式強調借助并行計算、數據挖掘、機器學習等技術去發現隱藏在數據中的關系與聯系。從方法論的角度來看,第四種范式的基本思想是將數據視為數字空間中真實世界事物、現象和行為的映射,并相信數據自然意味著真實世界的操作法則。此外,通過數據驅動和數據分析方法,數據被用作揭示物理世界中現象所包含的科學規律的媒介。(20)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version), 2020, 35(12).通過數據密集型科學,我們可以利用大數據集中的信息來揭示之前無法察覺的模式和關聯,這種方法可以幫助我們深入了解復雜的現象。

第四種范式將數據科學與前三種科學研究范式分開,并在科學發現和思維方面帶來革命性的變化。海量數據讓我們可以直接分析數據,發現新模式、新知識,甚至是過去的科學研究方法在不依賴模型和假設的情況下無法發現的新規律。雖然第四范式可以發現數據中的大量相關性,為科學發現提供了新的視野,然而僅依靠第四范式的數據驅動方法來進行雜亂無章的相關性分析不僅消耗了大量的計算資源也無法真正預測未來的趨勢和變化。因此,從方法論角度來看,第四范式在揭示事物本質規律方面存在固有局限性,數據科學需要在方法論上突破第四范式。(21)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version),2020,35(12).

(二)大語言模型與“第五科學范式”的誕生

在常規科學時期,科學共同體的主要任務是在范式的指導下從事釋疑活動,通過釋疑活動推動科學的發展,“常規科學即解難題(Puzzle)”。(22)托馬斯·庫恩.科學革命的結構.第2版[M].北京:北京大學出版社,2012.在釋疑活動過程中,一些新問題和新事物逐漸產生,并動搖了原有的范式,建立新范式的科學革命隨之產生。

科學研究從經驗范式發展到了數據科學范式,可以實現從海量數據中挖掘出人類智能難以發現的科學規律。但經過多年的科學實踐可以發現,不論是計算科學還是數據科學范式,在面對社會、經濟、人腦智能等復雜巨系統科研對象時,都存在數理模型難以構建、數據學習效率低下、內在機理不明等局限性。(23)周剛,王銳,李凱文,等. 覺悟ChatGPT,科研第五范式即將來臨[J]. 中國科技成果,2023,24(12).基于這樣的現實,吉姆·格雷提出了跨學科的解決方案,即鼓勵不同領域的科學家、工程師和計算機科學家共同研究,共享數據、工具和知識,以促進科學研究的進步。但實際上這樣深度的跨學科合作是不現實的,因為各種領域知識的專家互相之間并不了解,也不能準確判斷對方說的是否正確,因此在對跨學科領域建模的時候人類的智能是無法實現的。然而,以ChatGPT為代表的生成式AI在近年來取得的矚目成果展現了人機融合的巨大潛力,為科學研究長期的困境帶來了新的曙光。

智能科學范式作為人類科學革命歷史中的“第五范式”可以理解為一種以AI技術為核心,以融入人的價值和知識為手段,以人機共融為特征的跨領域科學研究規范。與先前的范式相比,第五范式更側重于人類、機器和數據之間的交互,強調人類決策機制和數據分析的整合,它體現了數據和智能的有機結合。目前,人工智能作為一種強大的科學研究范式已經在信息科學、數學、醫學、材料科學、地球科學、生命科學、物理和化學等八個主要的科學研究領域產生強大的效用。(24)Xu Y, Liu X, Cao X, et al. Artificial intelligence: A powerful paradigm for scientific research[J]. The Innovation, 2021, 2(4).

(三)智能科學范式作為“第五范式”的意義與價值

1.價值連接:跨學科的細?;?、全要素協同

以生成式AI為主導的智能研究方法,其核心要義在于通過AI對人類已有知識成果強大的學習和整合能力實現全領域、細粒度的價值連接。具體而言,這種連接是全要素、全系統的一種基于細粒度社會的價值匹配,凸顯了智能技術在學術研究領域中通過中介性、匹配性所實現的倍加效應。智能研究方法能夠使科學研究在這種連接中實現更高的效率,更深遠的探測,更細粒度的把握。第五范式旨在推斷各種認知計算應用的共同點,并指導開發互補解決方案,以應對未來的挑戰。(25)Malitsky N, Castain R, Cowan M. Spark-mpi: Approaching the fifth paradigm of cognitive applications[J]. arXiv preprint arXiv:1806.01110, 2018.

價值連接主要作用于科學研究中研究對象(Subject)的問題。AI對人類知識成果的整合力可以實現語言模型跨學科、跨系統的知識融合,使吉姆·格雷提出的跨學科解決路徑成為可能。這使得當前諸多因“學科壁壘”而無法探測的巨型復雜系統逐漸被納入系統化研究的議程,如社會系統、經濟系統、人腦智能等。換言之,第五范式的出現使諸多常規科學無法深入研究的問題變得可及,將科學研究的對象拓展至更復雜、更深層的領域,同時也打開了人類更加廣闊的研究視野。智能研究方法作為科學研究的“第五范式”目前尚處于起步階段,且需要一個極其漫長的過程,需要建立在開源知識系統、算力平臺系統和算法模型和軟件系統等多種智能系統之上。

圖2 智能科學范式作為“第五范式”的意義與價值

總體而言,第五范式最重要的價值即在于通過AI對人類已有知識成果強大的學習和整合能力實現全領域、細粒度的價值連接。它是一個連接型的價值,而不是某一個專門的工具,我們需要從價值連接的角度來理解第五范式。AI模型甚至可能成為一種新的知識形式,與人類能夠理解的知識并駕齊驅,共同組成科學知識,(26)李建會,楊寧.AI for Science:科學研究范式的新革命[J].廣東社會科學,2023,(06).它為跨學科的復雜系統研究和人類的科學視野提供了無可估量的價值。

2.路徑革命:范式突破與方法統合

在科學發展的某一時期,總有一種主導范式,當這種主導范式不能解釋的“異?!狈e累到一定程度時,就無法再使用舊有的范式去做解釋,科學共同體將尋求更具備包容性的新范式。(27)托馬斯·庫恩.科學革命的結構.第2版[M].北京:北京大學出版社,2012.常規科學的前四種范式都有各自的特長,但它們通常不能解決其他范式的問題,而且在面對復雜的問題時,它們之間更不能進行有效的協同、匹配和交叉。

第五研究范式能夠實現“范式突破”的原因在于可以利用自身強大的數據歸納和分析能力去學習科學規律和原理。具體而言,以深度學習在科學研究的應用為例,深度學習中用于訓練神經網絡的數據來自科學基本方程的數值解,而非經驗觀察,從而延展出一種新的知識創造的思路,即通過“機器猜想”的方式實現科學智能的應用。(28)劉志毅.第五范式的出現:科學智能+機器猜想 | 數字之道[N].經濟觀察報,2022-11-25.以深度學習為代表的AI技術兼顧了效率與準確性,通過“機器猜想”的方式應用于科學智能,通過不同“算法思維”和“應用場景”的對撞,得到不同領域的專業知識,將未知的結論推導出來,從而反向推動該領域的發展,得到在經驗領域具有的前瞻性的結果。

智能研究方法主導了科學發展困境期的一場路徑革命,通過“科學智能+機器猜想”的方式打破了常規科學范式之間的邊界,并且在方法論和思維模式上形成對前四種研究范式的統合,為科學研究提供了前所未有的路徑。比如,當前自然科學研究中普遍面臨的“維數災難”問題,目前的算力無法處理非常高維的數學問題,而通過神經網絡的方法則可以有效地表示或者是逼近高維空間的函數。例如,分子動力學中對原子間相互作用的勢能函數的描述,即便是通過量子力學模型,也要每一步在線地把原子和原子間的相互作用力算出來,且只能處理最多1000個原子。利用深度學習的方法,科學家們將分子動力學極限從基線提升到了1億原子的驚人數量,同時仍保證了從頭算的高精度,效率是之前人類基線水平的1000倍。

總體而言,第五研究范式是一種全新的思維模式和方法論,通過對常規科學范式的突破和對研究方法的整合,以更加高效和準確的路徑推動科學進展。

3.主體強化:“人在回路”模式的深度人機協作

從范式演進的角度來看,以數據密集為特征的第四范式可以發現數據中的大量相關性,為科學發現提供了新的視野。但在具有主觀、非線性、不規則結構特征的研究對象上,僅靠數據驅動方法進行漫無邊際的相關性分析,不僅消耗了大量的計算資源,而且無法真正預測未來的趨勢和變化。(29)Xueqi C, Hong M E I, Wei Z, et al. Data science and computing intelligence: concept, paradigm, and opportunities[J]. Bulletin of Chinese Academy of Sciences (Chinese Version), 2020, 35(12).面對第四研究范式的這些困境,采用“人在回路”學習模式的人機協作方法開始展現其強大的潛力。

人在回路(Human in the loop,HITL)指人類參與算法建構的訓練和測試階段,以連續的方式訓練和驗證模型,是將機器和人類智能相結合以獲得長期最佳結果的過程,簡言之即:由人主導的迭代。人在回路是監督機器學習和主動學習的結合,這種將人類和機器智能結合起來的方法創造了一個持續的反饋循環,使算法每次都能產生更好的結果。在常規的科學研究中,研究者往往是以觀察者的身份介入到研究中的,如第一范式中人類觀察總結,第二范式中人類歸納推導,第三范式中人類建模分析,第四范式中人類設計框架等。不論是經驗范式、理論范式、計算范式還是數據范式,人類總是在觀察、歸納物理世界的客觀現象,用數理邏輯、理論概念、公式和模型等作為可靠的“抓手”來處理問題。但當這些可靠的“抓手”在面對復雜問題失效時,當機器通過學習掌握了人類創造的知識之后,人的定位應該從幕后走向臺前。通過到將人的直覺性經驗或專家性經驗融合到數據模型或者計算模型當中,以人類專家經驗引導改進“機器”的低效探索,發揮“機器”的計算能力優勢和人類的直覺性優勢,以人機融合、人在回路的形式進行科學實踐,以彌補“機器”無法感知或推理某些難以量化的科學規律上的局限性。

總體來看,“人在回路”的深度人機協作模式為擅長邏輯推理的機器賦予人類特有的非線性抽象思維,以機器積累量變,以人腦觸發質變,以螺旋升級的方式共同促進科學技術的進步和發展。

四、結語

智能科學范式是一個充滿潛力和挑戰的領域,它將為科學研究開辟新的視野和路徑,也將對科學家的角色和能力提出新的要求。同時,它也帶來了一些挑戰和風險,需要科學家和AI研究者共同面對和解決。例如,AI生成結果的可解釋性(Explainability)問題,即AI如何做出決策和推理的過程往往是不透明的,難以被人類理解和驗證。這就需要開發新的方法和工具,揭示AI的內部機制和邏輯,從而提高AI的可信度和可靠性。

可以預見的是,傳統科學和傳統產業在未來將成為人工智能的重要實踐場,隨著人工智能與社會各個領域的深度融合,將會改變社會千行百業的生長邏輯和內部結構,并推動社會全實踐領域實現更加智能化、高效化和可持續化的生產和發展。放眼未來,AI的前景或許不再僅僅是一種高性能工具,AI模型甚至可能成為一種新的知識形式,與人類能夠理解的知識并駕齊驅,共同組成科學知識。(30)李建會,楊寧.AI for Science:科學研究范式的新革命[J].廣東社會科學,2023,(06).AI所引發的智能產業變革,也將極大提升人類的認知能力,使得知識的學習和傳播能力極大躍升,進而促進知識的創造和應用。(31)李萬,鄒蕓,錢婭妮.第四次工業革命興起、發展與影響——從人的能力延伸以及科技進步速率波動的視角[J].中阿科技論壇(中英文),2023,(07).

科學研究的歷史是一個“問題—答案—新問題”的循環往復,在過去的半個世紀里,那些深奧且充滿挑戰的科學難題曾吸引無數研究者深思與投入,但在其解決過程中又展現出難以逾越的復雜性。當我們回首過去可以發現,這些問題僅僅是人類科學演進和認知拓展過程中的冰山一角,并暗示著一個更廣闊、更深層的問題域。隨著AI For Science的崛起以及多學科交叉融合的獨特研究方法,我們得以窺見一種創新的研究范式。這種范式無疑為那些長期困擾科學界的難題,以及人類在科學前沿的勇敢探索,注入了前所未有的學術活力與可能性。通過這些先進的智能研究途徑,我們能夠更系統、更深入地挖掘科學知識的寶藏,進一步拓展人類對自然界的認知邊界。而從歷史的角度來看,科學研究范式的演進絕不會停留在第五次,人類對于未知的不懈求索、對于方法的革新,將同人類文明的演進一樣生生不息。

猜你喜歡
科學研究范式人工智能
歡迎訂閱《林業科學研究》
以寫促讀:構建群文閱讀教學范式
歡迎訂閱《紡織科學研究》
紡織科學研究
范式空白:《莫失莫忘》的否定之維
孫惠芬鄉土寫作批評的六個范式
紡織科學研究
2019:人工智能
人工智能與就業
管窺西方“詩辯”發展史的四次范式轉換
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合