?

機器學習在橄欖石產地溯源中的應用

2024-01-25 12:34沈錫田張志清
寶石和寶石學雜志 2023年6期
關鍵詞:橄欖石產地準確率

仲 源,沈錫田,張志清,葉 敏,韓 禹

(1.中國地質大學(武漢)珠寶學院,湖北 武漢 430074; 2.湖北省珠寶工程技術研究中心,湖北 武漢 430074;3.湖北國土資源職業學院,湖北 武漢 430090; 4.張家口地質博物館,河北 張家口 075000)

寶玉石的產地溯源常根據其包裹體特征[1]、譜學特征[2]和元素含量特征[3-5]等來判定。其中,元素含量特征常采用投圖法,即用不同的元素或元素組合(和、差、比值等)構建坐標系,將不同產地的寶玉石樣品的元素信息在其中投點,體現出差異化的分布。例如,通過Cr2O3/Ga2O3和Fe2O3/TiO2來區別變質型和巖漿型剛玉[3];通過Cs2O+K2O和FeO+MgO兩個指標來區分不同產地的祖母綠[4];還可通過比較輕重稀土元素變化趨勢以及異常稀土元素對出土古玉材料進行產地溯源[5]。但是實際產地判別中投圖法仍存在一些局限性:(1)元素的選擇基于經驗,且判別過程依賴檢測人員的視覺觀察,存在一定主觀性;(2)隨著需要判別的產地增多,依賴少數幾種元素構建的二維圖像,容易出現不同產地的交叉重疊。例如,Ga-Zn-Li三種元素坐標系,阿富汗、贊比亞和巴西藍寶石在該坐標系下的元素分布有部分重疊[4];(3)投圖法依賴原始數據,復用性較差。

產地判別本質上是一種分類任務,機器學習能夠從多維數據中自動學習規律、構建模型,從而進行分類,減少主觀經驗的介入,且具有較強的復用性。機器學習已經應用于很多領域如醫療影像診斷[6]、農作物產地溯源[7]等。其中,線性判別分析(LDA)已經在一些寶玉石產地研究中得到應用。Shen等[8]對四個產地的橄欖石樣品進行了產地判別,利用了14種元素建立LDA模型;Giuliani等[9]根據不同原生礦床中的紅、藍寶石樣品的成分建立了LDA模型,進而對次生礦床中的紅、藍寶石進行判別,推斷其原生礦床來源;Zhang等[10]對吉林意氣松和朝鮮的橄欖石樣品進行對比研究,并采用了LDA對兩個產地橄欖石樣品進行了判別;Homkrajae等[11]基于LA-ICP-MS測出珍珠樣品中的主微量元素含量,并利用LDA對三個產地的淡水珍珠樣品進行了判別。其他機器學習算法(如決策樹、隨機森林、支持向量機、神經網絡等)在寶玉石產地判別中的研究相對較少,且缺少對元素特征工程和模型優化的討論研究。

本文研究以三個產地(河北大麻坪、吉林意氣松、朝鮮長淵郡,各產地地理位置如圖1所示)的橄欖石樣品為研究對象,嘗試在產地判別中應用多種機器學習算法,并探索優化產地判別模型的路徑。我們通過LA-ICP-MS測試了河北橄欖石樣品的元素含量,并結合了Zhang等[10]提供的吉林和朝鮮橄欖石樣品的測試數據,使用Python語言和Scikit-learn機器學習庫等進行了數據處理、分析和建模,分析了不同產地橄欖石樣品的元素分布情況和各元素相關性,研究了元素的選擇對于線性判別分析效果的影響,進而篩選合適的元素作為建模特征,同時采用了六種機器學習算法分別建立產地判別模型,對比了不同模型的準確性和泛化能力,從而對模型進行擇優。

圖1 河北大麻坪、吉林意氣松和朝鮮長淵郡橄欖石樣品的產地位置

1 樣品及測試方法

1.1 樣品情況

表1 三個產地橄欖石樣品的常規寶石學特征

圖2 河北大麻坪雙面拋光后的部分橄欖石樣品

圖3 三個產地的橄欖石刻面成品(左三:河北大麻坪;中三:吉林意氣松;右三:朝鮮長淵郡)

1.2 測試方法

河北大麻坪橄欖石樣品均在武漢上譜分析科技有限責任公司的激光剝蝕電感耦合等離子體質譜(LA-ICP-MS)進行微區原位測試,儀器型號為與193 nm準分子激光剝蝕系統(GeoLasPro)聯用的Agilent 7700 series ICP-MS。測試條件:激光器光束直徑44 μm,頻率5 Hz,能量80 J、能量密度為5.5 J/cm2、脈沖數250。選用美國地質調查局(USGS)制定的硅酸鹽玻璃--2G、BCR-2G、BIR-1G作為標準樣品。選用美國國家標準局 (NIST) 制定的標準參照樣品SRM610校準時間漂移,每6個樣品插入兩個SRM610標樣。為確保結果的可靠性,每個樣品隨機選取一個測試點且避開包裹體。此處需要說明的是,晶體本身均一性較好,未發現環帶結構,且測試造成的誤差可以看作是圍繞樣品真實值的隨機噪聲,而機器學習的建模過程更關心所有樣品的整體分布情況,每個樣品的隨機噪聲互相抵消,應對整體分布的均值影響不大。但模型的判別過程可能會對單一樣品的誤差敏感,因此后續研究和應用中可考慮增加單一樣品的測試點位以提高判別精度。該測試條件和Zhang等[10]一致。

2 機器學習建模

2.1 編程語言和環境依賴

在Windows系統中,使用Python語言編程,采用JupyterLab集成開發環境,數據清洗、分析和建模主要依賴Pandas、NumPy、scikit-learn等庫。

2.2 不同種類元素組合的線性判別分析

2.3 六種機器學習算法建模

對上文提及的65 519個LDA模型分別計算了準確率,其中交叉檢驗準確率最高的一個模型利用10種成分作為建模特征,分別為Mn、Zn、Na、Al、Sc、V、Cr、P、Ti和REE。在這10種成分的基礎上,使用六種不同的機器學習算法建模,分別為LDA、基于高斯核函數的支持向量機(SVC-RBF)、基于拉普拉斯核的支持向量機(SVC-Laplc)、決策樹(DTC)、隨機森林(RFC)和反向傳播神經網絡(BPNN)。各算法及調用scikit-learn的接口參見表2。

表2 六種機器學習算法調用的接口和參數設置

(1)SVC的主要思想是在特征空間中找到一個最優超平面,將不同類別的實例盡可能地分開,并且使得離超平面最近的訓練樣本(支持向量)到超平面的距離最大化,結合核函數,能夠處理非線性可分的數據[12]。(2)DTC可將樣本分類的過程用樹形結構表示,一棵決策樹由根節點、內部節點和葉子節點構成,其中根節點和每個內部節點表示對一種特征取值的判斷,每個分支代表判斷的結果,最后每個葉節點代表一種判別結果[13]。(3)RFC是一種結合了決策樹和集成學習的機器學習算法,使用了集成學習中的Bagging算法,基本思想是從訓練集中隨機選擇一定數量的子集,每個子集訓練一棵決策樹,多棵決策樹投票最多的類別作為最終的輸出[14]。(4)BPNN由三個部分構成:輸入層、隱藏層和輸出層,每層有一定數量的神經元,并按不同的權重分別與下一層各神經元進行多對多連接,就構成了網絡結構。通過設計一個輸出值和真實結果之間的誤差函數,采用誤差反向傳播算法和梯度下降等的優化算法,不斷調整神經元權重,迭代模型以縮小誤差,從而找到一個最優化的模型[15]。(5)DTC和RFC模型采用網格搜索(Grid Search)的方式優化超參數。

全數據集準確率是用所有樣品數據訓練模型并回代入模型所得的預測結果,但是理想的模型不僅要在建模所用的數據上表現良好,也應該在其他數據上表現良好,即模型具有良好的泛化能力,因為建模的目的就是在未來實際檢測中,對那些未知產地的樣品也能做到有效的判別。因此,在本文,我們將數據集按訓練集:測試集=7∶3的比例進行劃分,并利用訓練集訓練模型,再分別代入訓練集和測試集計算準確率。

3 結果和討論

3.1 LA-ICP-MS分析

LA-ICP-MS測試結果(表3和表4)顯示,高于檢出限的成分有MgO、FeO、Li、Mn、Co、Ni、Zn、Na、Al、Ca、Sc、V、Cr、P、Ti、REE(Ca、Ti、REE有個別低于檢出限的樣品,按檢出限/10進行了處理)16種。三個產地橄欖石樣品的鎂值Fo(nMg/nMg+nFe)基本在同一個范圍內,屬于高鎂橄欖石。

表3 LA-ICP-MS測得的三個產地的橄欖石樣品的主量成分

表4 LA-ICP-MS測得的三個產地的橄欖石樣品的微量元素

圖4通過核密度估計曲線展示了三個產地橄欖石樣品在16種成分上的分布情況。整體上看,吉林橄欖石和朝鮮橄欖石樣品的分布存在比較明顯的差異,主要體現在Li、Na、Al、Ca、Ti、V、Cr、Mn、FeO、Zn共10個成分上,呈現出吉林橄欖石的含量偏低和朝鮮橄欖石的含量偏高的趨勢。綜合來看,吉林橄欖石和朝鮮橄欖石樣品在多數成分上的差異較明顯,在少數成分上難以區別(如Sc、P、REE等)。河北橄欖石與吉林和朝鮮橄欖石樣品在大多數成分上都有所重疊,僅在個別成分上有一定的區別(如Al、Sc等)。

通水,不是簡單的引水下山、接水入戶,必須思慮周遠,質效兼顧。在解決貧困地區農村安全飲水問題上,我省以管理制度改革為重點,不斷探索。

圖4 三個產地橄欖石樣品在16種成分上的高斯核密度估計

其他元素基本低于檢出限,不列出;表3和表4括號內的值表示所有樣品均值,低于檢出限的樣品按軟件給出的原始數據作為其值;REE 表示稀土元素La~Lu的總量,低于檢出限的取檢出限的1/10作為其值;bdl 表示低于檢出限;* 表示存在樣品低于該元素檢出限

3.2 通過線性判別分析優化化學成分組合

圖5 不同數量的成分組合后建立LDA模型得到的準確率

從圖6可以看到,從3種成分組合開始,基本所有成分的平均改進度均為正值,這是因為2種成分組合的產地判別能力較差,基本上只要新成分加入,就能提供新的產地差異性特征,從而大幅提高判別準確率。隨著組合中成分數量的增加,大多數成分的平均改進度呈下降趨勢,甚至有個別成分(如MgO、FeO、Li、Mn、Ni等)從正值區間落到了負值區間,說明它們的加入降低了模型的準確率。

圖6 不同數量成分組合中的平均改進度

Sc元素的平均改進度雖然呈下降趨勢,但較之其他成分始終維持在較高的水平,說明它在產地判別中起到的作用是無可替代的。從圖6可以發現,Sc元素是唯一可以明顯看出河北和另外兩個產地分布差異的成分,而其他成分在河北和另外兩個產地都有大范圍的重疊,所以Sc元素是區分河北橄欖石樣品的關鍵。

P和Ca元素的平均改進度變化趨勢比較類似,都是在小幅度的下跌后趨于平穩,隨后又小幅上升,然后又下降。Ca在5~7、15~16種成分的時候平均改進度都跌到了負值。

REE的變化趨勢最為特殊,始終呈上升趨勢,從一開始的平均改進度處于一個平均的水平,到最后超過Sc元素成為平均改進度最高的元素。

Co元素的平均改進度始終處于負值區間,這說明Co大多情況下起到了降低準確率的作用,從圖4也可以看到Co在三個產地上的分布沒有明顯的區分。

為了對這些成分的平均改進度進行一個比較,將各成分從3種到16種成分組合的平均改進度分別進行加和(圖7),可以看到MgO、Co、Ni平均改進度總和均為負值,說明這3種成分在組合的成分數量變化過程中整體上對準確率起負面影響,之后的模型中將直接剔除這3種成分。FeO、Li、Ca的平均改進度總和相較其他成分很低,對準確率基本沒有貢獻,且從Li和Ca的產地分布上看,它們產地差異性也很小,也可以考慮剔除。剩下10種成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE)的平均改進度總和都較高,這10種成分組合的模型全數據集準確率為0.908,交叉檢驗準確率為0.889。

圖7 各成分平均改進度總和

De Hoog等[17]將橄欖石中的微量元素分為三類,不同的類別具有不同分配規律和含量特征:(1)I類元素(Li、Mn、Co、Ni、Cu、Zn)中,除了Li和Cu外,其它元素的離子半徑接近于Mg的半徑,且價態也是二價,所以容易進入晶格,常顯示出與Fo的相關性。I類元素含量變化小,在地幔橄欖巖中,這些元素主要富集于橄欖石,其含量取決于熔體的總含量,且受橄欖石平衡溫度的影響小。(2)Ⅱ類元素(Cr、Al、V、Sc、Ca、Na)受離子電價和尺寸的影響,不易進入橄欖石晶格中,但更容易進入其它共生礦物(如尖晶石、輝石等)中。Ⅱ類元素的含量變化明顯,主要受到平衡熔體溫度及共生礦物相的控制。(3)Ⅲ類元素(Ti、Zr、Nb、Y、P、REE)中,除了P外,其它元素的含量變化很大,主要受熔體總含量影響。在地幔橄欖巖的平衡溫度下,受到離子電荷和尺寸的影響,Ⅲ類元素不易進入橄欖石晶格,也不易進入其他共生礦物中,因此會和其他共生礦物顯示相似的含量變化。

改進度較高的10種成分中,Mn和Zn屬于I類元素,Na、Sc、V、Cr屬于Ⅱ類元素,P、Ti、REE屬于Ⅲ類元素,說明該模型充分利用到了De Hoog等[17]所說的三類元素,能更全面地反應出產地的差異化特征。

綜上所述,成分數量較少的情況下,新增成分一般對于模型準確率有很大提升,具體來說就是引入了異類元素。從數學的角度上,異類元素相關性小、產地分布差異大;從地質角度上,是因為異類元素攜帶了不同地質環境種的物理條件和元素豐度的信息。但當元素數量過多時,新增元素很可能導致模型準確率下降,可能是某些元素在加入時給模型引入了一些不必要的噪聲,如主量成分MgO、FeO在三個產地橄欖石間的差異本來就不大,加入它們不能提升模型性能,反而可能讓模型過擬合。

3.3 六種機器學習算法對比結果分析

LDA是在高維空間中尋找超平面將不同類別的樣本切分開,但當不同類別的樣本在高維空間中的分類邊界不是平面而是曲面時,線性判別的效果就會差很多,甚至產生大量的誤判。僅以二維空間中的二分類問題為例,如圖8,隨機生成3種分布形態的數據A、B、C,模擬可能出現的二分類情況。A中兩類樣本大致呈左右對稱的分布,B中兩類呈月牙形、相互嵌套構成彎曲邊界,C中兩類呈同心圓分布。

圖8 二維空間中的二分類問題樣本分布的理想邊界和LDA邊界

圖8-A2/B2/C2表示了理想邊界,即真實環境中總體之間的邊界,可能存在一些噪聲(用“x”表示)。通過LDA建模得到了圖8-A3/B3/C3的分類邊界。對于A中的數據,LDA表現較好,能將大部分樣本正確地分類,準確率為0.95。對于B中的數據,紅藍區域兩類數據邊界是彎曲鑲嵌,無法找到一條可以完美分割兩類的直線,LDA劃分出的兩個區域中必然會殘留對方的樣本,這使得LDA準確率降低到0.85。對于C類同心圓型數據,LDA判別準確率只有0.48,這樣的判別沒有意義。LDA往往要建立在樣本正態分布以及協方差相等的假設的基礎上??梢?在不知道數據分布形態的情況下,使用LDA不一定能得到準確率較高的模型,而非線性的算法可能會更有優勢。

我們基于3.2節推薦的10種成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE),分別應用六種機器學習算法建模,并計算測試集準確率和訓練集準確率(圖9)。其中,(1)LDA在訓練集上的準確率比較低,在測試集上的準確率最低;(2)SVC(RBF)和SVC(Laplc)的訓練集準確率和測試集準確率屬于中等水平;(3)DTC在訓練集上的準確率比LDA還要低一些,說明對訓練集的學習非常不足,在測試集上的準確率比LDA高一些,訓練集和測試集準確率差值較低;(4)RFC在訓練集上得到了100%的準確率,但在測試集上準確率下降到0.848,說明模型可能對訓練集過擬合的程度比較高;(6)BPNN在訓練集上的準確率是除了RFC之外最高的,且在測試集上也取得了最高的準確率,這說明該模型即從訓練集中充分學習到了訓練集的特征,而且也學習到了更普遍的產地特征,具有較強的泛化能力,在未知樣本上也有能力進行較準確產地判別。但該算法存在一定隨機性,每次生成模型的準確率有所波動,準確率是取50次訓練結果的平均值,其中訓練集準確率1個標準差為 0.01,測試集準確率1個標準差為0.015。

圖9 六種機器學習模型在橄欖石訓練集和測試集上的準確率

綜上所述,對于河北、吉林和朝鮮三個產地橄欖石樣品的判別,大部分非線性算法(除了DTC)相較LDA,準確率都有了提升,其中BPNN準確率最高,SVC訓練結果穩定且準確率較高。

4 結論

本文以河北、吉林和朝鮮三個產地橄欖石樣品為例,篩選10種化學成分(Mn、Zn、Na、Al、Sc、V、Cr、P、Ti、REE)作為特征,使用六種機器學習方法進行產地判別,得到如下主要結論。

(1)應用支持向量機等非線性的機器學習算法建??梢缘玫捷^好的判別效果,訓練集準確率可以達到95%以上,測試集準確率可以達到86%以上,遠超傳統的基于全部元素的LDA模型。

(2)篩選元素的意義在于提取出了能夠更好表現產地差異化性質的信息,剔除了冗余和無關的噪聲,能提升模型的性能和訓練效率。

猜你喜歡
橄欖石產地準確率
橄欖石
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
綠色之星橄欖石
橄欖石項鏈
警惕“洗產地”暗礁
食物離產地越遠越好
測定不同產地寬筋藤中5種重金屬
高速公路車牌識別標識站準確率驗證法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合