?

基于不同機器學習算法的鋁合金性能預測

2023-09-11 13:21
有色設備 2023年4期
關鍵詞:皮爾遜鋁合金樣本

李 婷

(沈陽東創貴金屬材料有限公司,遼寧 沈陽 110000)

0 引言

可持續的綠色發展方式是當今世界的主旋律,對材料的性能也提出了高強度、低重量的高標準要求,尤其是在航空航天領域,降低材料的重量可以減少油耗、增加航程,7xxx 系鋁合金正是這樣一種材料[1]。7xxx 系鋁合金最早在1932 年由維貝爾發現,隨后通過調整合金成分、添加微量元素,又發展出很多新合金,使得7xxx 系鋁合金種類增多,作為高強度鋁合金的代表,以其較高的強度以及良好的韌性和耐蝕性等優異性能而被廣泛地應用于航空航天及交通運輸領域[2-5]。

實驗試錯法是材料科學中的常用方法,即首先憑借科研工作者的個人經驗先對材料的成分、結構、性能等進行設計,然后采用實驗手段制備出所設計的材料,再測試其性能,從宏觀維度揭示其是否具有應用價值,之后采用表征手段顯示其微觀形貌特點,解釋其內在機理。如果設計的材料不符合預期的特點,則對其進行調整,繼續進行上述流程。此種方法需要大量的人力和物力、需要消耗大量的能源、研發周期很長、存在較大的盲目性。隨著計算機算力的提升,基于第一性原理的密度泛函理論計算作為材料科學的“第三范式”,被廣泛應用于新材料的開發,具有較高的準確性,但此種方法計算花費大[6]。隨著人工智能技術的發展,機器學習作為材料科學的“第四范式”,成為材料研發過程的熱點,為材料性能的預測[7-9]提供了見解。

鋁合金的成分是影響其力學性能的關鍵因素,Mg、Zn、Cu 是7xxx 系鋁合金的主要添加元素,通過影響合金的微觀組織變化影響其各項性能[10]。目前商用鋁合金的極限抗拉強度均在700 MPa 以下,為了開發工業化高強度7xxx 鋁合金,優化合金成分是一種實用的策略[11]。但由于鋁合金組成較為復雜,不同組分的鋁合金的數量變得難以估量,因此采用傳統實驗手段進行鋁合金的設計變得十分困難。

本文收集了鋁合金的組分及抗拉強度值形成初始數據集[11],以鋁合金的組分作為輸入向量、抗拉強度作為目標向量,采用RF、ET、Bagging、Adaboost建立不同的機器學習算法模型,揭示了鋁合金組分性能之間的關系,為鋁合金的設計提供理論指導。

1 機器學習算法

1.1 Bagging 算法

Bagging 算法是自舉匯聚法(bootstrap aggregating)的簡寫,是一種并行式的集成學習方法[12],是在自助采樣法(Bootstrap Sample)的基礎上構建的。自助采樣法是指采用隨機的、有放回的取樣方式,給定m個樣本的數據集,隨機取出一個樣本放入采樣集,再把樣本放回至初始數據集,重復此過程m輪,則可以得到一個具有m個樣本的采樣集。重復T次將會產生T個采樣集,然后基于每個采樣集各訓練出一個學習器,最后將這些學習器進行組合從而得到更好的預測結果。在預測輸出時,對于分類問題采用簡單投票法,對于回歸問題采用簡單平均法。

1.2 隨機森林(RF)

隨機森林(Random Forest,RF)是一種以決策樹為基學習器的集成學習算法[13],它既可以用于分類問題,又可以用于回歸問題?;舅枷霝閷⒍鄠€弱學習器的結果進行組合,從而形成一個預測性能更好的學習器,即遵循“少數服從多數”的原則。它是Bagging 算法的一種典型的機器學習算法模型。在樹的生長過程采用有放回的抽樣方式以及采用特征的最佳分割點進行劃分,即采用數據隨機和特征隨機的原則,可以降低學習器的方差,降低模型過擬合的風險。具有魯棒性強、并行簡單、訓練速度快等優點。

具體過程如下所述。

1)輸入樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},對于t=1,2,…,T,對訓練集進行第t次隨機采樣,共采集m次得到包含m個樣本的采樣集DT。

2)用采樣集DT訓練第T個決策樹模型GT(x)。在結點分裂形成葉子結點時,從所有特征選取一部分特征,對于分類問題,采用最大信息增益、最大基尼增益等方式選取一個最優特征進行決策樹左右子樹的劃分,對于回歸問題,采用最小平均絕對誤差(MAE),最小均方誤差(MSE)的方式進行左右子樹的劃分。

3)將T個決策樹模型組合得到最后的結果。

1.3 極端隨機樹(ET)

極端隨機樹(Extremely randomized trees,ET)也是一種集成學習算法[14],既可以用于分類問題,也可以用于回歸問題。與隨機森林算法類似,都是由許多棵決策樹構成的,但是極端隨機樹并不采取自助采樣策略,直接使用原始訓練樣本,從而可以減少偏差。在每棵決策樹的結點分裂時,閾值的選取是隨機的。對于回歸問題,當樣本的特征值大于閾值時分到左分支,小于閾值時,分到右分支,然后計算此時的均方誤差或者平均絕對誤差。遍歷所有的特征值,得到所有特征的均方誤差或平均絕對誤差。根據誤差最大的原則實現對結點的分裂。

1.4 Adaboost 算法

Adaboost 是自適應增強(Adaptive Boosting)的簡寫,是一種串行式的集成學習算法[15],既可以用于分類問題,又可以用于回歸問題。它是由Freund和Schapire 在1995 年提出的[15],其核心思想為提升(boosting)思想,即通過原始數據集生成弱學習器,然后采用迭代的方式更新樣本權重生成不同的弱學習器,最后采用結合策略把弱學習器結合起來生成一個強學習器。

具體過程如下所述。

1)初始化樣本權重計算式見式(1)。

式中:m為樣本的數量;ω1i表示第i個樣本的權重;i=1,2,…,m。

2)采用具有權重的樣本集進行訓練得到弱學習器Gk(x),k=1,2,…,K。

計算弱學習器的回歸誤差率計算式見式(2)。

式中:ek為弱學習器的回歸誤差率;m為樣本個數;ωki為第k個弱學習器、第i個點的權重;eki為第k個弱學習器、第i個點的相對誤差。

相對誤差主要有線性誤差、平方誤差與指數誤差3 種,分別如式(3)、(4)、(5)所示。

式中:xi,yi分別為第i個樣本點的特征值與目標值。

Ek為最大絕對誤差,如式(6)所示。

式中:αk為弱學習器的權重;ek為弱學習器的回歸誤差率。

4)下一次迭代的權重更新表達式見式(8)~(9)。

式中:Zk是規范化因子,使樣本權重和為1;ωki為第k個弱學習器、第i個點的權重;ωk+1,i為第k+1 個弱學習器、第i個點的權重;αk為弱學習器的權重。

5)采用結合策略,構建最終學習器,表達式見式(10)。

式中:f(x)為模型預測值;g(x)是所有αkGk(x)的中位數;αk為弱學習器的權重;k=1,2…,K。

1.5 性能評價指標

不同機器學習算法性能的好壞用平均絕對誤差(MAE)和皮爾遜相關系數(R)來評價,分別見式(11)、式(12)。MAE的值越小,R的絕對值越接近于1,表明模型的性能越好。

式中:yi表示鋁合金抗拉強度的實驗值;表示機器學習算法的預測值;表示鋁合金抗拉強度實驗值的平均值;表示機器學習算法預測值的平均值。

2 算法建立

材料的結構往往決定著性質,因此材料的組成可能與材料的某種性質存在著線性或者非線性關系。更復雜的材料組成使得其種類成倍增加,因此依靠傳統的實驗手段獲得這些關系變得更加不可能。借助于機器學習算法則使得這個過程變得更加簡單,可以揭示這種組分-結構-性質之間的關系。本文所使用的鋁合金抗拉強度數據集來源于Li 等人[11]的研究,為實驗獲得的真實值。以鋁合金的6種元素(Zn,Mg,Cu,Y,Ce,Ti)組成作為輸入向量,鋁合金的抗拉強度作為目標向量,建立不同的機器學習算法模型,基于機器學習的鋁合金抗拉強度預測模型構建方法如下所述。

1)數據準備:將73 條數據隨機分成兩部分,其中以85%的數據作為訓練集,用于模型的訓練,剩余15%的數據作為測試集,用于評估模型的泛化能力。

2)模型訓練:以鋁合金元素組成為輸入向量,抗拉強度為目標向量,建立Bagging、RF、ET、Adaboost 算法模型,其中Bagging 與Adaboost 均采用決策樹(Decision Tree,DT)作為基估計器。

3)模型性能評估:采用平均絕對誤差(MAE)、皮爾遜相關系數(R)對模型的性能進行評估。

4)模型解釋:采用基于博弈論的SHAP 方法對最好的機器學習算法模型進行解釋,探究各個特征對模型性能的影響。

5)模型應用:隨機生成不同組分的鋁合金,采用最好的模型預測其抗拉強度。

3 結果與討論

3.1 特征相關性分析

特征與特征之間存在高度的相關性時,會降低模型的穩定性和預測性能,特征與目標向量存在高度的相關性時,則有利于提高模型的穩定性和預測性能。因此首先需要分析特征與特征、特征與目標向量之間的相關性。本文通過特征與特征之間的皮爾遜相關系數熱圖和mRMR 分數來揭示相關性規律。特征與特征之間的皮爾遜相關系數熱圖如圖1(左)所示,mRMR 分數如圖1(右)所示。皮爾遜相關系數是一種衡量相關性的量度,其取值在-1 到1之間,絕對值越接近于1,說明兩個特征之間的相關性越高,即存在特征冗余;絕對值越接近0,說明兩個特征之間的相關性越低。mRMR(Max Relevance Min Redundancy)[16],即最大相關最小冗余算法,可以通過迭代的方式尋找特征之間相關性最小、與目標向量相關性最大的前k個特征。從圖中可以看出,特征之間的相關性很小,mRMR 分數由大到小分別為Ti>Y>Ce>Cu>Mg >Zn,因此特征之間不存在冗余,所以可以直接用于鋁合金抗拉強度的預測。

圖1 特征相關系數熱圖(左)及mRMR 分數排名(右)

3.2 不同算法模型預測結果

為了選擇出對鋁合金抗拉強度預測性能最好的模型,本文采用RF、ET、Bagging、Adaboost 四種機器學習算法建立了鋁合金抗拉強度的預測模型,采用皮爾遜相關系數(R)、平均絕對誤差(MAE)用于評價模型的性能。皮爾遜相關系數越接近于1,平均絕對誤差越小,說明模型的性能越好。圖2 顯示了不同機器學習算法在訓練集與測試集上的表現,它們的皮爾遜相關系數均在0.8 以上,4 種機器學習算法的預測值與真實值均在y=x附近,說明它們都具有很好的預測效果,其中RF 具有最高的皮爾遜相關系數,Adaboost 算法具有最小的平均絕對誤差,考慮到RF 的平均絕對誤差與Adaboost 相差不大,因此選擇RF 算法用于鋁合金抗拉強度的預測。

圖2 不同算法模型預測結果

3.3 模型解釋

類似于RF、ET、Bagging、Adaboost 等的一些非線性的模型盡管在材料性能預測上具有很高的精度,特征的維度相對較高(大于3 維)時,使得模型的解釋性下降。模型解釋在材料性能預測方面也十分重要,可以使我們探索其中的機理,為新材料的開發提供見解。SHAP(Sharpley Additive explanation)是解決模型可解釋性的一種方法,它是Lundberg 和Lee 在2016 年提出的[17]。SHAP 基于Shapley 值,該值是經濟學家Lloyd Shapley 提出的博弈論概念。該方法為通過計算在合作中個體的貢獻來確定該個體的重要程度。圖3 是用于解釋RF 模型SHAP 值分布的散點圖,我們可以了解每個特征對模型的預測是正向的還是負向的,圖中的每一個點代表了每個樣本的每個特征對模型輸出的貢獻,顏色代表了特征值的大小的,紅色越深表明特征值越大,藍色越深表明特征值越小。從圖中可以看出,Ti 元素含量對鋁合金抗拉強度的預測起正向作用,Ti 元素含量越高,抗拉強度值越大;Mg 元素、Cu 元素含量鋁合金抗拉強度的預測作用并不明顯;Zn 元素、Ce 元素、Y 元素含量對鋁合金抗拉強度的預測起負向作用,即元素含量越大,抗拉強度值越小。圖4 顯示了RF 模型的SHAP 重要性排序,可以看出,特征重要性從大到小分別為Ti >Mg >Cu >Zn >Ce >Y,Ti 元素含量的特征重要性最大,遠遠大于其他5 種元素含量,Mg 元素、Cu 元素、Zn 元素含量的特征重要性較為接近,Ce 元素、Y 元素含量的特征重要性較小。

圖3 RF 模型SHAP 值分布散點圖

圖4 RF 模型的SHAP 重要性

3.4 模型應用

在采用鋁合金6 種元素組成用于其抗拉強度的預測時,RF 模型擁有最佳的預測效果,它的皮爾遜相關系數為0.89,平均絕對誤差為40.33。因此可以隨機生成一些虛擬樣本,然后通過RF 模型預測其抗拉強度,便于后續通過實驗手段進行性能測試,繼而為鋁合金材料的設計提供見解。表1 顯示了原始數據集各元素含量的統計特性,我們可以在各元素含量的最小值、最大值之間生成一些虛擬樣本,并采用RF 模型對其抗拉強度進行預測,表2 顯示了一些虛擬樣本的抗拉強度值。

表1 原始數據集各元素含量的統計特性

表2 虛擬樣本的抗拉強度值

4 結論

1)以鋁合金的元素組成為輸入向量,抗拉強度為目標變量,采用RF、ET、Bagging、Adaboost 建立了不同的機器學習算法模型,采用皮爾遜相關系數(R)和平均絕對誤差對不同機器學習算法模型的性能進行了評價,結果表明:RF 模型具有最佳的預測性能,R=0.89,MAE=40.33。

2)采用基于博弈論的SHAP 方法對RF 模型進行的解釋,結果表明:Ti 元素含量對鋁合金抗拉強度的預測起正向作用,Ti 元素含量越高,抗拉強度值越大;Mg 元素、Cu 元素含量鋁合金抗拉強度的預測作用并不明顯;Zn 元素、Ce 元素、Y 元素含量對鋁合金抗拉強度的預測起負向作用,即元素含量越大,抗拉強度值越小,特征重要性從大到小分別為Ti>Mg>Cu>Zn>Ce>Y。

猜你喜歡
皮爾遜鋁合金樣本
用樣本估計總體復習點撥
現代統計學之父:卡爾·皮爾遜
現代統計學之父:卡爾·皮爾遜
Excel在水文學教學中的應用
推動醫改的“直銷樣本”
卡方分布的探源
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
2219鋁合金TIG焊接頭殘余應力分布
鋁合金三元氣體保護焊焊接接頭金相
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合