拉曼光譜學結合人工智能算法的分析技術研究

2023-09-25 00:57趙景維朱虹霓黃晉卿

湖北師范大學學報(自然科學版) 2023年3期

趙景維,朱虹霓,曹藝,黃晉卿

(1.香港科技大學深圳研究院,廣東深圳 518057;2.湖北師范大學先進材料研究院,湖北黃石 435002)

0 引言

長期的壓力會導致身體內與壓力相關的生物標志物一直保持在很高的水平,可能會增加長期焦慮和抑郁的風險[1, 2]。在血液中,與壓力相關的生物標志物包括皮質醇、腎上腺素、睪酮等應激激素[3]。其中,腎上腺素還與睪酮的分泌相關,這使得血液中腎上腺素濃度的監測能帶來更多的壓力相關信息[3]。此外,血紅蛋白是一種將氧氣從肺部輸送到其他器官和組織以支持身體活動的蛋白質,是血液中與應激激素共存的主要成分,分析這些與壓力相關的生物標志物的濃度水平對于健康監測和風險評估具有重要的意義。

拉曼光譜法作為一種光學診斷技術,可直接探測分子的化學鍵振動,具有快速的分析速度、可靠的結果以及無破壞性的特點[4]。近年來,人工智能算法被應用到光譜分析領域中,顯著提高了數據處理效率和準確度。但是,目前還沒有從水相混合物中定量分析多種生理指標分子的工作。這是因為很多生物分子通常具有一些相似的振動基團,導致他們的光譜峰變寬和相互重疊[3]。例如,Kirsten Gracie等人利用位于1 611 cm-1的拉曼峰對血清中皮質醇進行定量分析[5],但這是一個經常出現光譜峰重疊的區域[6]。因此,我們需要繼續研究更好的方法來識別和量化在接近生理條件下復雜混合物中的多種生理指標分子。

1 實驗材料與方法

1.1 樣品準備

皮質醇 (≥99%)、L-腎上腺素 (≥99%)、血紅蛋白(凍干粉)和二甲基亞砜 (DMSO)(≥99.0%)購自 Sigma-Aldrich.皮質醇、腎上腺素和血紅蛋白分別溶解在 5% 二甲基亞砜 (DMSO) 水溶液中,將這些儲備溶液以不同的體積比混合,制備得到566 組含有不同量皮質醇、腎上腺素和血紅蛋白的樣品溶液。

1.2 光譜采集

使用共聚焦拉曼顯微鏡(in-Via,Renishaw,Gloucestershire,英國)采集光譜數據。樣品溶液放在 20 倍顯微鏡物鏡下,使用 514.5 nm,功率為 25 mW的激光進行拉曼光譜測量。每次測量的采集時間為 20 秒,光譜重復10次測量進行累積疊加。拉曼光譜掃描范圍為500 cm-1至2 000 cm-1,光譜分辨率為 1 cm-1.

1.3 數據分析

原始拉曼光譜先進行基線校正、去除宇宙射線和扣除溶劑背景的預處理,然后將全部光譜數據隨機分為兩組:將75%的數據作為訓練集,將25%的數據作為測試集。訓練集的光譜數據用來構建多目標人工智能算法模型,其中包含3個獨立的模型分別用來分析皮質醇、腎上腺素和血紅蛋白的含量。調整每個獨立模型的超參數,優化生成評估指標。

1.4 人工智能算法

使用支持向量回歸(SVR)、決策樹(DT)、隨機森林(RF)和eXtreme Boost(XGBoost)建立多目標回歸模型,對每一種生理指標分子進行含量分析,計算預測結果的判定系數(R2)和均方根誤差(RMSE)來評價性能。一般來說,R2的數值越高并且RMSE的數值越低代表模型的結果預測性能越好。由于多目標回歸模型是由三個單目標回歸變量構建的,分別用于皮質醇、腎上腺素和血紅蛋白的定量分析,因此本研究采用平均(R2)和平均RMSE來檢驗不同模型的整體準確性。操作指南和源代碼分享于網絡數據庫:https://doi.org/10.14711/dataset/BP30DS.

2 結果與分析

2.1 拉曼光譜解析

圖1a)展示了含有不同濃度的皮質醇、腎上腺素和血紅蛋白樣品溶液的三角形關系示意圖。圖中,位于三個角落處的圓形點代表只含有皮質醇、腎上腺素或血紅蛋白的單一樣品溶液,位于三條邊緣的三角形點代表它們的二元混合樣品溶液,位于三角形內的星形點代表它們的三元混合樣品溶液。圖1b)分別展示了通過這些數據處理后得到的皮質醇(b1)、腎上腺素(b2)和血紅蛋白(b3)的拉曼光譜。在皮質醇的拉曼光譜中,在1 609 cm-1處有一個明顯的峰,歸屬于C=C伸縮振動模式[7]。腎上腺素的光譜特征包含777 cm-1(NH彎曲)、1 290 cm-1(面內環變形、脂肪族H-O-C-H彎曲和鏈扭曲的耦合)、1 468 cm-1(面內環變形和CH彎曲的耦合)和1 609 cm-1(面內環變形、環內C-O-H彎曲和C=C拉伸的耦合)[6,8]。血紅蛋白光譜中的峰主要歸屬于其氧合狀態下的血紅素基團,顯示特征峰位于1 373 cm-1的對稱pyr半環拉伸,1 561 cm-1的CβCβ拉伸,1 582 cm-1的不對稱CαCm拉伸,1 609 cm-1的乙烯基C=C拉伸,1 637cm-1的不對稱CαCm拉伸[9]。如圖1b)中虛線標記所示,皮質醇、腎上腺素和血紅蛋白的拉曼特征峰在1 609 cm-1處重疊,這主要是來源于它們化學結構中的C=C拉伸振動[6]。除此之外,皮質醇、腎上腺素和血紅蛋白的其他光譜特征峰的強度較弱,增加了區分和量化各成分含量的難度。圖1c)展示了這些生理指標分子在二元混合物和三元混合物溶液中的拉曼光譜。皮質醇和腎上腺素(C1)、腎上腺素和血紅蛋白(C2)、皮質醇和血紅蛋白(C3)、二元混合物(體積比為 1∶1)以及皮質醇、腎上腺素和血紅蛋白(C4)三元混合物(體積比為 1∶1∶1)的光譜明顯變得更加復雜。值得注意的是,位于1 609 cm-1處的重疊峰出現了變寬和扭曲[6]。盡管拉曼光譜中包含了豐富的分子特征信息,但對于從多元混合物的水溶液中分別對皮質醇、腎上腺素和血紅蛋白的進行定量分析仍然具有挑戰性。

圖1 a)皮質醇、腎上腺素和血紅蛋白的樣品三元圖;b)皮質醇(b1)、腎上腺素(b2)和血紅蛋白(b3)的拉曼光譜圖;c)皮質醇和腎上腺素(c1)、腎上腺素和血紅蛋白(c2)、皮質醇和血紅蛋白(c3)的二元混合物以及皮質醇、腎上腺素和血紅蛋白(c4)的三元混合物的拉曼光譜圖

2.2 模型比較

分別使用支持向量回歸 (SVR)、決策樹 (DT)、隨機森林 (RF) 和 eXtreme Boost (XGBoost),可搭建出基于光譜信息的多目標回歸模型,基于不同人工智能算法的模型進行全面超參數優化后,用于從混合物的拉曼光譜中分別分析皮質醇、腎上腺素和血紅蛋白的含量。例如,通過支持向量回歸 (SVR) 來學習隨三種組分在不同體積比的光譜特征,可將如圖1c中所展示的混合拉曼光譜進行多組分定量分析,結果如下:皮質醇和腎上腺素的二元混合物拉曼光譜(C1)分析值為0.52∶0.49∶-0.01,真實值為0.50∶0.50∶0.00(皮質醇:腎上腺素:血紅蛋白溶液體積比)、腎上腺素和血紅蛋白二元混合物拉曼光譜(C2)分析值為0.00∶0.53∶0.43,真實值為0.00∶0.50∶0.50(皮質醇:腎上腺素:血紅蛋白溶液體積比)、皮質醇和血紅蛋白的二元混合物拉曼光譜(C3)分析值為0.50∶0.06∶0.51,真實值為0.50∶0.00∶0.50(皮質醇:腎上腺素:血紅蛋白溶液體積比)、皮質醇、腎上腺素和血紅蛋白的三元混合物的拉曼光譜圖(C4)分析值為0.23∶0.43∶0.30,真實值為0.33∶0.33∶0.33(皮質醇:腎上腺素:血紅蛋白溶液體積比)。圖2展示了四個模型的奇偶校驗圖,包括每個模型分別用于從混合物的拉曼光譜中分析皮質醇、腎上腺素和血紅蛋白的含量時的預測值與真實值的所有數據點。在針對每個組分的分析散點圖中,橫坐標代表從樣品溶液制備中獲知的各組分之間體積比的真實值,縱坐標代表模型分析預測結果,圓形點代表從訓練集的光譜數據分析中獲得的結果,三角形點代表從測試集的光譜數據分析中獲得的結果。在針對不同體積比的皮質醇、腎上腺素和血紅蛋白的定量分析中,模型整體性能的良好程度由標繪點沿對角線(方程y=x)的接近度定義,表明在每個數據點下模型的預測精度都非常高。紅色和綠色繪圖點之間的偏差越小,表明該模型對于訓練集和測試集數據分析的通用性越高。顯然,在使用支持向量回歸(SVR)、隨機森林(RF)和eXtreme Boost (XGBoost)分析皮質醇、腎上腺素和血紅蛋白的奇偶校驗圖中,大多數標繪點位于奇偶校驗圖的對角線附近。但是,使用決策樹(DT)分析生成的標繪點分散在整個奇偶校驗圖中,存在欠擬合的情況。

圖2 使用a)支持向量回歸 (SVR)、b)決策樹 (DT)、c)隨機森林 (RF)、d)eXtreme Boost (XGBoost) 在每個數據點下分別針對皮質醇、腎上腺素和血紅蛋白的分析預測性能的奇偶校驗圖

通過計算確定系數R2和單種成分含量評估的均方根誤差RMSE的平均值,獲得每個模型的平均R2和平均RMSE作為評估指標。因此,平均R2和平均RMSE的數值可以用來量化不同模型針對混合樣本溶液中三種成分含量分析的整體預測準確性。其中,平均R2可以代表整體精度,而平均RMSE被視為多目標回歸模型中的損失函數,也可以用于最佳超參數組合選擇。從對于訓練集和測試集的光譜數據分析結果來看,性能良好的模型應該能獲得較高的平均R2值和較低的平均RMSE值。更重要的是,模型對于訓練集和測試集的光譜數據分析而獲得的平均R2和平均RMSE之間的相似值可能暗示著模型的通用性。反之,若模型對于訓練集和測試集的光譜數據分析而獲得的評估指標之間存在巨大差異,則可能表明過度擬合或欠擬合。

表1和表2分別展示了使用支持向量回歸 (SVR)、決策樹 (DT)、隨機森林 (RF) 和 eXtreme Boost (XGBoost) 對于訓練集和測試集的光譜數據針對混合物中皮質醇、腎上腺素和血紅蛋白進行定量分析而獲得的平均R2和平均RMSE.

表1 不同模型使用訓練集進行分析的評估指標比較

表2 不同模型使用測試集進行分析的評估指標比較

其中,支持向量回歸(SVR)和隨機森林(RF)在對于訓練集和測試集的光譜數據分析中都能獲得平均R2大于0.9的高數值,表明這兩種模型對成分含量分析的預測精度高于90%。此外,考慮到模型的通用性,本研究還比較了這兩種模型對于訓練集和測試集的光譜數據分析而獲得的兩項評價指標之間的絕對差異。使用支持向量回歸(SVR)對于訓練集和測試集數據分析之間的平均R2的絕對差異(0.0207)小于使用隨機森林(RF)對于訓練集和測試集數據分析之間的平均R2的絕對差異(0.0837),表明支持向量回歸(SVR)在平均R2方面的評估下可認為是更通用的模型,可以很好地測量因變量與自變量的方差比例[10]。并且,使用支持向量回歸(SVR)對于訓練集和測試集數據分析之間的平均RMSE的絕對差異(0.0147)小于使用隨機森林(RF)對于訓練集和測試集數據分析之間的平均RMSE的絕對差異(0.0611)。就平均RMSE而言,支持向量回歸(SVR)是一種更通用的模型,它可以更好地做出與真實值誤差更小的準確預測。根據總體評估數值,在本研究中,支持向量回歸(SVR)和隨機森林(RF)都可以被認為是用于拉曼光譜分析的四種模型中最好的模型。

2.3 模型改進

基于機器學習算法在分析混合物中皮質醇、腎上腺素和血紅蛋白含量的性能表現,光譜數據的多目標回歸分析模型還可以繼續改進。由于多目標回歸模型是由三個獨立模型構建的,同一種算法不一定對每種成分分析都能獲得最優秀的預測性能,因此可以通過搭配不同種算法來分別針對不同目標成分進行分析,例如用支持向量回歸(SVR)來量化皮質醇和血紅蛋白,搭配隨機森林(RF)來進行腎上腺素的定量分析,最終提高針對所有目標成分含量分析的預測準確性。此外,因為深度學習算法通常優于經典機器使用更多數據學習算法,無需人工干預數據預處理[11]。搭建分析模型時還可以通過使用卷積神經網絡 (CNN) 來獲得比支持向量回歸 (SVR) 更高的預測精度值,實現由于94%的多目標組分含量分析準確率?？傮w而言,由于三種與壓力相關的生理指標分子的拉曼光譜數據具有高維復雜性以及微弱和重疊的光譜特征,需要搭建和優化基于機器學習算法的多目標回歸模型來針對每種組分進行定量分析,將來可以結合更先進的算法來進一步改進模型,實現更高的分析預測準確率。

3 結論

通過將拉曼光譜與機器學習相結合,建立多目標回歸分析模型,可以實現在二元和三元水相混合物中針對每種與壓力相關的生理指標分子進行定量分析。在針對皮質醇、與睪酮相關的腎上腺素、以及血紅蛋白的模型優化和比較中,支持向量回歸 (SVR) 在對于訓練集的光譜數據分析中獲得平均R2的最高值0.9352和平均RMSE的最低值0.0826,特別適合針對皮質醇和血紅蛋白的含量分析。使用隨機森林 (RF) 可以獲得0.9003的平均R2和0.1013的平均RMSE,也具有優秀的分析預測性能,尤其適合針對腎上腺素的含量分析。構建的分析模型還可以通過結合不同的機器學習算法并添加額外的組件來得到進一步的改進,比如通過使用卷積神經網絡 (CNN) 來獲得比支持向量回歸 (SVR) 更高的預測精度值,實現由于94%的多目標組分含量分析準確率。結果表明,盡管與壓力相關的生理指標分子具有重疊的光譜特征,通過拉曼光譜和多目標回歸機器學習算法的結合,可以實現在二元和三元混合水溶液中針對每種生物標志物的準確量化,有望解決多目標成分光譜定量分析的難題,將來在健康監測的應用中發揮關鍵性作用。