?

化學工程中機器學習的優勢、限制、機會和挑戰

2021-03-17 02:54MrtenDoelerePieterPlehiersRuenVndeVijverChristinStevensKevinVnGeem
工程 2021年9期
關鍵詞:機器分子建模

Mrten R.Doelere , Pieter P.Plehiers , Ruen Vn de Vijver , Christin V.Stevens ,Kevin M.Vn Geem ,*

a Laboratory for Chemical Technology, Department of Materials, Textiles and Chemical Engineering, Ghent University, Ghent 9052, Belgium

b S ynBioC Research Group, Department of Green Chemistry and Technology, Faculty of Bioscience Engineering, Ghent University, Ghent 9000, Belgium

1.引言

在化學工程130年的發展中,數學建模對于工程師理解和設計化學過程而言非常寶貴。Octave Levenspiel甚至指出建模是化學工程中的主要發展[1]。如今世界快速發展,挑戰比以往任何時候都要多。預測某些事件結果的能力是必要的,無論這些事件是否與新疾病活性藥物成分的發現或合成有關,或者是否與為滿足更嚴格的環境立法而提高工藝效率有關。這些事件的范圍包括從表面反應的反應速率、反應器中反應的選擇性到反應器中熱量供應的控制??梢允褂靡呀浗⒘藥装倌甑睦碚撃P瓦M行預測。描述黏性流體行為的Navier-Stokes 方程[2?3]就是這種理論模型的一個例子。然而,這些模型大多數都不能對現實系統進行分析求解,并且需要相當大的計算能力來進行數值求解。這一缺陷使大多數工程師首先選用簡單的模型來描述現實情況。歷史上,一個重要且對如今而言仍然相關的例子是普朗特邊界層模型[4]。在計算化學中,科學家和工程師愿意為了縮短計算時間而放棄一些精度。與更高層次的理論模型相比,這種意愿解釋了密度泛函理論的流行。然而,在許多情況下仍然需要更高的精度。

幾十年的建模、模擬和實驗為化學工程界提供了大量的數據,這些數據作為額外的建模工具包增加了根據經驗進行預測的選擇。機器學習模型是統計和數學模型,其可以從經驗中“學習”,并在數據中發現模式,并且不需要顯式的、基于規則的編程。作為一個研究領域,機器學習是人工智能(AI)研究領域下的子領域。人工智能是指機器執行任務的能力,這些任務通常與智能生物(如人類)的行為有關。如圖1 所示,這并不是一個全新的領域?!叭斯ぶ悄堋币辉~創造于1956年在美國達特茅斯學院為數學家舉辦的一個夏季研討會上,該研討會旨在開發更多具有認知能力的機器。從那時起,經過十數年的努力,人工智能技術才首次應用于化學工程中[5]。在20世紀80年代,更多的關注偏向于規則式專家系統,因為這被認為是人工智能最簡單的形式。在那時,機器學習領域的研究已經開始興起。但在化學工程領域,除去個別例外,機器學習的發展滯后了大約10年。20世紀90年代,隨著聚類算法、遺傳算法和最為成功的人工神經網絡(ANN)的采用,關于人工智能在化學工程中應用的論文著述出版量突然增多。然而,這種趨勢并非可持續的。Venkatasubra‐manian[6]認為這種興趣的喪失可能是由于機器學習缺乏強大的計算能力和創建算法任務的困難性所致。

過去十年中,一個標志性的突破是深度學習的發展,深度學習是機器學習研究領域的子領域,它構建人工神經網絡來模仿人類大腦。正如上文所提及的,人工神經網絡從20 世紀90 年代開始在化學工程師中流行起來:然而,深度學習時代的不同之處在于,深度學習為多層神經網絡的訓練提供了計算手段,即所謂的深度神經網絡。這些新發展激發了化學工程師的靈感,這從關于該主題的論文著述出版數量的指數級增長上也可以反映出來。過去,人工智能技術永遠不會作為標準工具用于化學工程中;因此,對于當前是否是將之最終納入標準工具箱的合適時機,是值得討論的。本文將首先概述當今機器學習應用于化學工程的三個主要環節。本文接下來將批判性地討論機器學習在化學工程中不斷增長的潛力;文中將調查其利弊,并列出可能的原因來討論為什么機器學習在化學工程中仍是“熱門”的話題或為什么它最終會“不再熱門”。

2.機器學習基礎ABC

2.1.機器學習ABC中的“A”——數據

如圖2所示,機器學習方法由三個重要環節組成:數據、表示和模型。機器學習方法的第一個環節是用來訓練模型的數據。正如后面將要討論的,所使用的數據也被證實是機器學習過程中最薄弱的環節。實際上,任何包含實驗、第一性原理計算或復雜仿真模型結果的數據集都可以用來訓練模型。然而,由于收集大量準確數據的成本很高,習慣上使用“大數據”的方法,即使用來自各種現有來源的大型數據庫。由于真實實驗的成本高昂,這些大量的數據通常是通過快速模擬或從專利和已發表的作品中進行文本挖掘獲得的。數字化研究的增加為科學界提供了大量的公開資源和商業數據庫。常用的化學信息來源有Reaxys [7]、SciFinder [8],用于反應化學和性質研究的ChemSpace[9],用于小的藥物分子的GDB-17[10],以及美國國家標準與技術研究所(NIST)[11]和對溶解度等分子性質進行研究的國際純粹與應用化學聯合會(IUPAC)[12]。此外,還創建了幾個基準數據集,以便在不同的機器學習模型之間進行比較。這些基準測試集的例子有用于量子化學性質的QM9 和Alchemy [13],以及用于溶解度的ESOL[14]和FreeSolv [15]。在使用任何數據集進行基于機器學習的建模之前,應該采取幾個步驟來確保使用的數據質量足夠高。確保數據質量的一般方面——從生成到存儲——被稱為數據管理。關于數據管理必要性和結果的更多細節將在下文進一步討論。

圖1.人工智能、機器學習和深度學習的發展時間表。關于人工智能在化學工程領域應用的出版物的發展表明,出版物數量上升之后是一個興趣淡漠的階段。目前,化工領域的人工智能研究再次處于“火熱”階段,然而現在尚不清楚曲線是否會很快回落。

機器學習(更具體地說是深度學習方法)與傳統建模之間存在一些關于數據使用的差異。首先,人工神經網絡從數據中學習并自我訓練,而這樣做需要大量的數據。因此,訓練數據集通常包含數萬到數十萬個數據點。其次,數據集被分成三個而不是兩個集:訓練集、驗證集和測試集。訓練集和驗證集都用于訓練階段,而只有訓練集中的數據用于擬合。驗證集是一個獨立的數據集,為訓練階段提供對模型擬合的公正評估。測試集用不可見數據評估最終的模型擬合,并且通常是模型質量的主要指標。

2.2.機器學習ABC中的“B”——表示

機器學習方法的第二個重要環節是如何在模型中表示數據。即使數據已經是數字格式的,輸入模型的變量或特征的選擇也會對模型的結果產生重大影響。這一過程被稱為特征選擇,并且已經成為許多研究的熱點話題[16?19]。對所選擇特征的數量進行限制可以減少訓練和執行模型所需的計算成本,同時提高整體精度。這種特征選擇過程在所謂的深度學習方法中相對不那么重要,因為深度學習方法被假定在內部已選擇了那些被認為是重要的特征[20]。然后,一個由基本工藝參數(如壓力、溫度、停留時間等)、原料表征(如蒸餾曲線、原料組成等)或催化劑性能(如比表面積、煅燒時間等)組成的輸入層通常是足夠的[21?27]。然而,在非數值數據(如分子和反應)的情況下,表征數據這一任務變得更具挑戰性。

化學工程的任務通常涉及分子和(或)化學反應。為這些數據類型創建合適的數字化表征本身就是一個正在發展的領域。在計算機應用中,分子構成通常由基于線的標識符表示,如簡化分子輸入線性輸入系統(SMILES)[28]或IUPAC國際化學標識符(InChIs)[29]或三維(3D)坐標。最近,自引用嵌入字符串(SELFIES)[30]是一種為機器學習應用設計開發的分子字符串表征。分子信息被轉換成特征向量或張量,并輸入到深度神經網絡或其他機器學習模型中去。第一種表示分子的方法是選用一組分子描述符,如相對分子質量、偶極矩或介電常數[31?33]。另一種生成分子特征向量的方法是從3D幾何開始?;趲缀伪硎镜睦佑袔靵鼍仃嘯34]、化學鍵分組(分子向量化表示)[35]以及距離、角度和二面角的直方圖[36]。然而,在許多應用程序中,3D坐標或計算屬性通常不可用。在這種情況下,可以從一個分子圖開始創建表征,從而產生所謂的基于拓撲的表示方法。

基于拓撲的表示方法只可使用基于線的標識符。編碼器可以使用自然語言處理技術直接將基于線的標識符轉換為表示形式[37?41],但通常是將基于線的標識符以類似于基于幾何表征的方式轉換為特征向量[42?60]。這是通過向分子圖中添加簡單的原子和鍵的特征,然后在原子和鍵之間迭代傳輸信息來實現的?;谀Ω惴╗61]的圓形指紋[42?46],如擴展連通性指紋[62],是機器學習應用的第一批分子表示形式之一。這些指紋就是所謂的固定分子表示,因為它們在機器學習模型的訓練過程中不會發生改變。固定分子表示在藥物設計中仍然流行,因為其可以快速預測候選藥物的物理、化學和生物學特性[63]。由于在每個預測任務中,一個固定的表示向量代表一個分子,這種類型的輸入層似乎與深度神經網絡的定義相沖突,因為深度神經網絡被假定為是從重要特征[64]中學習的。人們越來越傾向于學習如何表示一個分子[47,52],而不是聚焦在人類工程中的特征向量,因為人們認為,在數據更少、計算成本更低的情況下,更好地捕捉特征能確保更高的精度[53,58]。

圖2.化學工程機器學習的三個主要環節;每個部分都對最終預測結果有影響,應該謹慎處理。

已學習的分子表征會被設計為預測模型的一部分。從幾個初始的分子特征,如重原子、鍵類型和環特征開始創建分子表示方法,并且在訓練期間進行更新。這種選擇也表明,根據預測任務的不同,分子會有不同的表示方法??梢允褂肎ilmer等[59]綜述的消息傳遞神經網絡框架來描述廣泛已學習的基于拓撲的表示方法[47?58]。分子圖中原子和鍵信息的加權轉移是信息傳遞神經網絡的特征。盡管有許多不同的表示形式存在,其復雜性各不相同,但值得注意的是,尚未開發出一種適用于所有類型分子性質的統一表示形式[65]。關于分子表示更詳細的概述,讀者可以參考David等[60]的綜述。

就數據類型而言,化學反應比分子更為復雜。與基于線的分子標識符相似,化學反應可以通過反應SMILES[66]和反應InChI(RInChI)[67]來識別,而SMIRKS[66]可以識別反應機制。類似于分子,化學反應也應該被向量化以便在機器學習模型中發揮作用。最直接的方法是從反應物的分子描述符(如指紋)開始,對其求和[68]、相減[50,69],或進行串聯[70?72]。另一種方法是對于積極參與反應的原子和鍵,學習其反應表示[73]。反應也可以保存為文本(通常是InChI),通過神經機器翻譯后,有機反應產物被視為反應產物的翻譯[58,74?78]。

2.3.機器學習ABC中的“C”——模型

機器學習方法的最后一個前提是建模策略??晒┻x擇的機器學習模型種類很多。模型可以按不同的方式分類,可以根據其目的(分類或回歸)或學習方法(無監督、有監督、主動或遷移學習)來分類。一般來說,術語“機器學習”可以應用于研究任何隱式建模數據集內相關性的方法[79,80]。因此,許多目前被稱為機器學習方法的技術在被稱為機器學習之前就已經開始使用了。其中兩個例子是高斯混合建模和主成分分析(PCA),它們分別起源于19世紀下半葉[81]和20 世紀初[82?83]。這兩個例子現在都被認為是無監督機器學習算法。其他類似的無監督聚類方法有t分布隨機鄰域嵌入(t-SNE)[84]和基于密度的空間聚類(DBSCAN)在噪聲場景下的應用[85]。圖3 顯示了監督學習和非監督學習技術之間的區別,并給出了非詳盡的針對特定任務的有用算法的列表。在無監督學習中,算法不需要任何“解”或標簽來學習;它會自己發現模式。無監督學習技術已經被用于化學工程的各種目的。Palko‐vits R 和Palkovits S[86]使用k-means 算法[87]根據催化劑的特征對其進行聚類,并使用t-SNE將催化劑的高維表示可視化。t-SNE不僅可用于催化,還是高維數據可視化的首選方法;它還被用于診斷化學過程的故障[88?89]和預測反應條件[69,90]。主成分分析(PCA)是另一種降維算法,已多次被化學工程師用來確定訓練集中占最大方差的特征[91?97]。此外,PCA 還被用于異常值檢測[93,98]。其他用于異常檢測的算法包括DBSCAN 和長短期記憶(LSTM)[99?100]。有興趣的讀者可以參考閱讀Géron[101]的書以進一步了解機器學習算法。

圖3.無監督和有監督機器學習算法的綜述;非詳盡列舉了有用算法。ANN:人工神經網絡;GMM:高斯混合建模;LSTM:長短期記憶。

當數據集被標記時,即已知每個數據點的正確分類時,可以使用如決策樹(及其擴展方法隨機森林)的監督分類方法[102?103]。支持向量機是另一種可行的監督分類方法[104]。雖然支持向量機通常用于目的分類,但是也已經進行了擴展以允許通過支持向量機進行回歸?;貧w問題需要使用有監督或主動學習方法,盡管原則上來說,任何有監督學習方法都可以歸入主動學習方法中。人工神經網絡(ANN)及其所有可能的變體[105?113]是最常與機器學習聯系在一起的方法。根據應用的不同,可以選擇前饋神經網絡(用于基于特征的分類或回歸)、卷積神經網絡(用于圖像處理)或循環神經網絡(用于異常檢測)?;瘜W工程師可能會遇到用于表示分子的卷積神經網絡(見第2.2 節)[42?60]、人工神經網絡[32?33,47,91,114?117]、支持向量機[32]或用于預測表示性質的核嶺回歸[36,118]。人工神經網絡已被作為黑箱建模工具應用于催化[23]、化工過程控制[119]和化工過程優化[120]等眾多應用中。當已知標簽時,對數據點進行分類的一種流行算法是k-最近鄰算法,該算法已被用于化學過程監控[121?122]和催化劑聚類[86,123?124]。

3.優勢

本節和接下來的幾個小節將對化學工程師使用機器學習方法時的優勢、限制、機會和挑戰進行詳盡的綜述。圖4概述了下面將描述的內容。

機器學習技術在化學和化學工程領域很受歡迎,因為它可以揭示人類科學家無法發現的數據模式。與明確依賴于物理方程(由已知模式推導出)的物理模型不同,機器學習模型并不只依賴編程來解決某個問題。對于分類問題,這意味著沒有明確定義的決策函數必須被預先設計。對于回歸問題,這意味著不需要推導或參數化詳細的模型方程[80]。這些優點能有效地升級大型系統和數據集,而不需要耗費大量的計算資源。目前使用機器學習預測量子化學性質的熱潮例證了機器學習技術的這些優點[32?33,35?37,39?40,47,49?50,52,55,65,68,71,73,115]。通常的從頭計算方法往往需要花費數小時或數天來計算單個分子的性質,而訓練好的機器學習模型可以在幾分之一秒的時間內做出準確的預測。當然,其他能夠準確預測的快速技術也已經開發出來了,但與機器學習模型相比,它們的應用范圍有限[125]。機器學習的主要弱點是無法進行外推,但通過簡單地添加新的數據點,可以很容易地擴展機器學習的應用范圍。主動學習[126?127]使得用最少的新數據擴展范圍成為可能,這對于標記樣本代價非常大的情況(如尋找數據點的真實值)是理想的,如量子化學計算[116]或化學實驗[72,128?129]。此外,現有的機器學習模型,如ChemProp[47]和SchNet[130?131],可以隨時使用,不需要經驗??偟膩碚f,機器學習在諸如scikit-learn [132]和TensorFlow [133]等軟件包以及Keras [134](現在是TensorFlow [133]的一部分)或PyTorch [135]等框架下變得非常容易使用,這些框架將深度學習模型的訓練限制在幾行代碼中。這樣的軟件包和框架使科學家有機會將他們的研究重點聚焦在研究的實際物理意義上,而不是把寶貴的時間花在開發高階計算機模型上。

圖4.在化學工程中使用機器學習作為建模工具的優勢、限制、機會和挑戰。

4.限制

機器學習方法的主要弱點之一是它們的黑箱本質。當給定某個輸入時,機器學習方法將提供一個輸出,如圖5所示?;谀P驮跍y試數據集上的統計性能,它可以對其輸出的精度和可靠性做出某些陳述。模型超參數(如人工神經網絡中的節點數)的詳細分析可能是乏味的,但可以對模型已學習的相關性提供一些見解。然而,為某些行為提取物理上有意義的解釋是不可行的。因此,無論其速度和精度如何,機器學習模型對于解釋性研究而言不是一個很好的選擇。

可解釋性的缺乏增加了設計合適的機器學習模型的難度。與任何模型一樣,機器學習模型會過擬合或欠擬合數據,而適當的模型位于兩者之間。對于機器學習模型來說,過擬合的風險通常高于欠擬合的風險,這取決于訓練數據的質量、數量和模型的復雜性。過擬合是模型結構的固有屬性,并不依賴于超參數的實際值,這可以類比于用高階多項式擬合(噪聲)去擬合帶噪聲的線性數據集。在深度學習中,過擬合通常表現為過度訓練,當模型多次顯示相同的數據時,就會出現過度訓練的現象。這導致模型記憶噪聲而不是捕捉一般本質模式。通過將模型在訓練數據上的性能與在驗證和測試數據集上的性能進行比較,可以鑒別出過度訓練。如果測試集的效果明顯好于驗證集的效果,那么模型可能訓練過度。確定訓練周期的數量往往很困難。為了避免過擬合,機器學習模型和其他優化問題一樣需要一個停止準則。在傳統建模中,模型通常涉及一些關于現實的至少某種形式的簡化。由于包含簡化,取得高精度的訓練數據集是傳統建模的主要挑戰,所以這種停止準則通?;谟柧殧祿憩F的變化而定。對于機器學習模型來說,實現訓練數據集的精度通常不是問題;相反,挑戰主要是當模型處于沒有直接訓練的情況下時,如何取得高精度的數據。因此,停止準則應該基于模型對“不可見”數據(即所謂的驗證數據集)的表現而定。為了嚴格測試優化的數據集,需要一個完全獨立的數據集——測試數據集,這也是傳統建模方法中的常見做法。

機器學習方法的最后(但往往是最關鍵的)一個弱點是所使用的數據本身。如果數據集中存在過多的系統錯誤,網絡本身也會產生系統錯誤,這就是所謂的“垃圾進—垃圾出”(GIGO)原則[136]。一些形式或來源的錯誤可以相對容易地被識別,而另一些錯誤一旦出現則很難被找到。如同每種統計方法一樣,可能會出現異常值。相較于大的數據集,在小數據集上進行訓練的模型更容易受到一些異常值的影響。這就是為什么在機器學習中不僅數據的質量很重要,數量也很重要。一種可能的解決系統性錯誤的方法是從數據集中手動刪除這些數據點;也可以使用算法進行異常檢測,如PCA[69,92]、t-SNE [137?138]、DBSCAN[139?140],或循環神經網絡(長短期記憶網絡)[111,141?142]。近年來,基于自學習無監督神經網絡的異常檢測方法[143]已被開發出來[144?146]。除了簡單的異常值外,數據點也有可能是錯誤的。這種錯誤數據點可能來自一個測量錯誤實驗中的樣本,也可能來自一組不正確實驗。例如,化學分析實驗中儀器沒有校準而產生的數據就是錯誤數據。在一組系統錯誤數據上進行訓練尤其危險,因為模型會將錯誤趨勢視為正確。通過對公開數據的認真審查,有可能發現上述問題。這個例子說明了數據管理的重要性,它確保所使用的數據是準確、可靠和可重復的。

圖5.解開黑箱模型的結果。不好的結果通常與所使用的訓練集有關。當測試超出應用范圍時,應發出警告信號。對好的結果需要加以驗證,以了解模型學習到了什么。

顯然,只有當數據可用時才能對其進行管理。盡管幾十年的建模、模擬和實驗為化學工程界提供了大量的數據,但這些數據通常存儲于研究實驗室或公司,因此不容易獲得。即使可以訪問數據,例如,讀取內部數據庫,獲得的數據對機器學習而言可能也并非完全有用。使用文本挖掘技術從研究論文或專利中提取的數據[147]也存在同樣的情況。這些數據可能沒有用處的原因是一般情況下只會發表成功的實驗,而失敗的實驗不會被發表出來[148]。此外,在人類化學工程師(具有洞察力和科學知識)看來毫無意義的實驗或操作條件數據不會被執行。然而,機器學習算法卻不具備這些知識,不包括這些“瑣碎”的數據可能會導致預測錯誤。

5.機會

機器學習方法的許多優勢提供了各種各樣的應用機會,其最近的發展也緩和了一些針對機器學習的最重要的批評。幾乎所有經過訓練的機器學習方法都具有極高的執行速度,這使得這些方法非常適配于在預定義系統邊界內需要精度和速度的應用程序。這類應用的例子包括前饋過程控制和高頻實時優化[149?151]。雖然對這些應用場景來說經驗模型往往精度欠佳,但詳細的本質模型卻因難以快速運算而使得計算延遲無法被避免?;诒举|模型訓練的機器學習模型可以提供類似的精度,但需要付出經驗模型的計算成本。在這種情況下,模型是基于高等級數據訓練的,并試圖預測經驗結果和真實值之間的差異[152?153]。無監督算法可用于過程控制應用以發現實時數據中的異常值[93]。機器學習方法是更準確、更快速預測與可靠的工業數據的結合,為創造數字孿生和更好的控制提供了機會,使得化學過程更為有效。

在多尺度建模方法中也可以得出類似的觀察結果,在這種方法中,可以對各種不同尺度的現象進行建模,得到一組復雜且強耦合的方程組。機器學習在這類應用中的潛力很大程度上取決于多尺度方法的目標。如果目標是獲得對低尺度現象的基本見解,那么機器學習就不可取,因為它具有黑箱特性。然而,如果將較小的尺度納入該方法,以獲得更精確的大尺度現象模型,那么機器學習可以用來替代較小尺度的緩慢的基本模型,而不影響大尺度現象的可解釋性。

機器學習的最后一個機會在于解決其主要缺陷:不可解釋性??山忉寵C器學習系統的問題并不是化學工程問題所獨有的,它幾乎存在于任何決策系統中[154?157]。在催化領域,有人試圖使機器模型所學習的內容可理解化[158]。然而,這種嘗試仍然沒有為模型結果提供任何層級的直白解釋。圖5顯示了用于解釋為什么會得到某個結果的工作流。當模型輸出一個好的結果時,比如一個化學反應預測器給出了正確的產品,只有在檢驗了預測所憑借的基礎之后,這個模型才應該是可信的。解釋模型結果的第一步是量化個體預測的不確定性[159?160],因為這提供了模型對其自身決策的置信度[115,161?164]。一個相對簡單的方法是通過集成建模。這種方法已經在天氣預報中使用了幾十年,并且可以與幾乎任何類型的模型結合使用[165?167]。人們還創建了一些算法來確定某些輸入特征對輸出的影響程度[168],或查看模型對某個輸出使用了哪些訓練點[169?170]。當結果在化學或物理上看起來不合理時,應該尋找對抗性的例子來證偽模型而非驗證模型[159]。而且,原因通常是在存在錯誤數據或偏差的數據集中發現的[171?172]。

另一種使機器學習模型更具可解釋性的方法是在模型中加入與化學相關且有充分根據的信息。雖然解釋仍然需要大量的后續處理,但是如果使用人類可讀的輸入并且模型架構不是太復雜的話,這仍然是可行的。使用分子指紋作為輸入的復雜遞歸神經網絡幾乎不可能被解釋,因為人類很難破譯這種模型輸入。在風險管理中,經常采用“盡可能低的合理可行”(ALARP)原則[173]。類似地,為了讓機器學習模型盡可能具有解釋性,人們可以提出“盡可能簡單合理”的原則。

6.挑戰

機器學習模型的可訪問性既是研究的主要優勢,也是其主要挑戰。雖然任何有基本編程技能的人都可以使用機器學習,但由于缺乏算法知識也可能導致誤用。今天,有大量的機器學習算法可用,有可能有大量的參數和超參數組合。即使對有經驗的用戶來說,機器學習仍然是一種合乎邏輯的試錯方法。由于研究人員經常無法解釋為什么一種算法有效而另一種無效,一些人將機器學習視為一種現代“煉金術”[174]。此外,大多數已發表的文章不提供源代碼,或僅提供偽代碼,這使得研究人員不可能再現其算法[175?176]。盡管機器學習在化學和化學工程領域不像社會科學那樣面臨許多可重復性問題[177],但由于該領域機器學習研究的增加,對其持懷疑態度的人可能也會相應增長。從Gartner 成熟度曲線[178]來看,機器學習和深度學習超過了膨脹預期的峰值[179],而且存在進入興趣幾乎消失的幻滅期的風險。除了不負責地任意使用算法之外,更危險的可能是對結果的錯誤解釋。這種算法的黑箱特性使得很難甚至幾乎不可能解釋為什么會得到某種結果。此外,模型也可能因為錯誤的原因給出正確的結果[159]。因此,研究人員在使用機器學習時應該牢記統計學的一條重要規則:這是相關性的而非因果性的。

在應用超出模型所建立的范圍時,就發生了另一種不合理地使用機器學習的情況。應用范圍由訓練數據集決定,并且是有限的。在測試未知數據點時,研究人員應檢查這些數據點是否在應用范圍內。當數據點超出范圍時,用戶應該會看到一個警告信號,提醒他們模型將表現不佳[92]。圖5 的下半部分描述了如何通過查看訓練集找到獲得不當結果的原因。使用聚類算法的開源應用程序可以評估數據的精度及其應用范圍[180]。

將機器學習應用于化學工程研究領域的最后一個挑戰是,在機器學習技術方面,研究者受教育程度的差距越來越大。當在化學和化學工程中使用計算機和數據科學時,重要的是不僅要了解所使用的工具,還要了解其應用的過程。因此,在不久的將來,關于如何使用機器學習算法的簡單培訓可能會顯得不足。相反,良好的人工智能和統計方法教育將在化學工程本科課程中變得至關重要。另外,在研究課題上,計算機科學家和化學專家之間需要更多的合作。訓練不足的研究人員可能會錯誤地使用計算工具,而當計算機和數據專家不完全熟悉正在研究的主題時,他們可能無法得到最好的結果。更多的跨學科研究,以及機器學習專家和化學專家之間的合作關系,可能是避免對機器學習的興趣進入幻滅期的一種方法。

7.結論和展望

在過去的十年里,機器學習已經成為化學工程師工具箱中的一個新工具。事實上,由于其具有執行速度快、靈活和用戶友好的應用優勢,化學工程師對機器學習的興趣愈發濃厚。這種流行的另一面是誤用機器學習或誤解黑箱結果的風險,這可能會導致化學工程界對機器學習的不信任。以下三點建議可以幫助提高機器學習模型的可信度,使其成為一種更有價值、更可靠的建模方法。

第一,在化學工程界中保持對數據和模型簡單、開放的訪問非常重要。高質量的數據和開源模型鼓勵研究人員將機器學習作為一種工具,使他們能夠更專注于自己的主題,而不是花時間在編程和收集數據上。第二,且與第一點相關,是創建可解釋模型。由于其他研究領域已經建立起機器學習,化學應用的新模型往往受到現有算法的啟發。因此,研究為什么某個輸出是由給定的輸入生成的,而不是維護其黑箱特性,將有利于該領域的研究。第三條建議是對長遠的算法教育進行投資。雖然化學工程師通常有很強的數學和建模技能,但理解圖形界面背后的計算機科學是成為建模人員的前提。這也使定義模型的應用范圍成為可能,這對于理解模型什么時候是插值,什么時候是外推至關重要。最后一點絕對是最為關鍵的:機器學習模型應該是可信的模型,這種可信度只有模型在多次訓練集外的謹慎使用后方能獲得。

Acknowledgements

The authors acknowledge funding from the European Research Council (ERC) under the European Union’s Hori‐zon 2020 research and innovation(818607).Pieter P.Plehiers and Ruben Van de Vijver acknowledge financial support, re‐spectively, from a doctoral (1150817N) and a postdoctoral(3E013419) fellowship from the Research Foundation—Flan‐ders(FWO).

Compliance with ethics guidelines

Maarten R.Dobbelaere,Pieter P.Plehiers,Ruben Van de Vijver, Christian V.Stevens, and Kevin M.Van Geem declare that they have no conflict of interest or financial conflicts to disclose.

猜你喜歡
機器分子建模
機器狗
機器狗
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
分子的擴散
基于PSS/E的風電場建模與動態分析
未來機器城
不對稱半橋變換器的建模與仿真
“精日”分子到底是什么?
米和米中的危險分子
臭氧分子如是說
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合