?

近紅外無創血糖濃度的Label Sensitivity算法和支持向量機回歸

2024-03-07 01:49宦克為姜志俠張瀚文周林華
光譜學與光譜分析 2024年3期
關鍵詞:光度波長光譜

孟 琪, 趙 鵬, 宦克為, 李 野, 姜志俠, 張瀚文, 周林華*

1. 長春理工大學數學與統計學院, 吉林 長春 130022

2. 長春理工大學物理學院, 吉林 長春 130022

3. 長春理工大學數學實驗示范中心, 吉林 長春 130022

引 言

近紅外光譜分析技術在醫療健康領域尤其在血液成分無創監測中扮演著重要的角色[1-2]。 血糖是評價人體健康程度的一項重要指標, 持續性追蹤血糖變化尤為重要。 然而, 人體組織背景復雜、 血糖信號變化微弱以及測量條件有限等原因使得無創監測未能實現。 前輩學者為攻克這一難題做了許多努力, 1987年Dahne首次應用近紅外分光法進行人體血糖無創檢測[3], 開啟了無創檢測血糖的光譜領域。 2003年Katsuhiko Maruo等使用近紅外光測量真皮組織下的葡萄糖含量進而追蹤血糖變化, 該方法可以減弱人體組織對光譜信號的干擾[4]。 Ramasahayam等使用人工神經網絡對近紅外信號進行處理, 將神經網絡這一強有力工具應用到血糖無創檢測中[5]。 以消除個體差異為重點, 天津大學李剛團隊提出了動態光譜法用于實現血液檢測[6-8]。 進一步考慮血糖變化的本質, 代娟綜合多種因素確定了近紅外光譜的測量波長及部位, 提出基于粒子群算法優化兩個神經網絡的模型[9]。 2018年, 徐馨荷為了提高無創血糖測量的精度, 基于“M+N”理論從誤差理論的角度闡明了在光譜分析中M種非測量組分和N種外界干擾因素對測量精度的影響。 考慮了M因素中四種非測量組分和N因素中接觸壓力對血糖測量值的影響, 建立基于“M+N”理論的血糖人體試驗系統[10]。 針對實際監測過程中傳感器, 環境噪聲等各種因素限制其測量精度的問題, 黃永英提出了一種移動窗雙層篩選處理算法結合實時自補償校準算法的雙重校準模式, 實現對電流數據的信號漂移補償, 并基于此設計了一種可實時, 動態檢測血糖變化的監測器[11]。

以上工作對引起血糖變化的多重因素充分考究, 針對數據采集與分析做了有效推進, 從光譜中解析葡萄糖濃度信息, 通常采用如偏最小二乘回歸(PLSR)等多變量回歸的方法在實際測量中[12]。 陳真誠學者提出一種脈搏波預處理方法, 采用經驗模態分解和三次樣條插值算法去除原始脈搏波的高頻噪聲和基線漂移。 運用動態光譜頻域提取法提取對數脈搏波的基波分量, 采用的偏最小二乘法交叉驗證的方法[13]。 隨著機器學習的熱潮, 支持向量機展現了處理回歸問題中的優勢, 便有學者馬爽等提出了基于支持向量機回歸模型的無創血糖光譜算法, 該方法預測準確度優于偏最小二乘回歸10%~15%[14], 為回歸模型的優化提供了新思路。

現有回歸預測模型常使用全波段數據, 對特征波段的選取多基于特征向量之間的相關性和對模型的貢獻力等因素, 應用連續投影算法(SPA)[15]、 無信息變量消除法(UVE)、 最佳指數法(OIF)等方法以去除冗余信息以降低數據維度、 減少運算量。 孫靜濤等對多元散射校正(MSC)處理后的光譜分別利用連續投影算法(SPA)、 競爭性自適應重加權算法(CARS)和CARS-SPA方法篩選了哈密瓜可溶性固形物和硬度的特征波長, 并建立支持向量機回歸模型[16]。 張紫楊提出了基于最佳光程長的測量波長選擇原則, 可在測量靈敏度最大的條件下, 評價葡萄糖吸收光譜的測量是否可行[17]。 此種方法強調的是特征向量之間的關系并沒有考慮到標簽的變化。 根據前輩學者的分析, 證實血糖存在明顯的吸收波峰且不同波長下包含血糖變化的信息量有差異, 因此提取更滿足標簽變化的有效波長至關重要, 并考慮將標簽值引入特征波長挑選算法中。 本文基于標簽敏感度算法(label sensitivity, LS)實現了近紅外光譜特征波長的有效選擇。

1 算法模型原理

1.1 Label Sensitivity原理

由于不同波長下血糖對光的吸收量有差異, 提取有效波長非常有必要。 我們的算法思想為期盼挑選出與濃度差值變化保持一致的特征波長, 認為挑選出的LS值高的特征波長應具備以下特點: (1)同一濃度數據分布集中即方差較小。 (2)不同濃度之間, 近紅外吸光度的均值具有區分性并且變化幅度與濃度差值呈正相關, 即當濃度差值越大時, 吸光度均值差也應越大。 設原始光譜信號值為

(1)

式(1)中,N為所有濃度,L為選定濃度下樣本總數,K為波長總數。

如圖1, 在波長k處, 對應4組濃度數據, 濃度分別為la,lb,lc,ld, 且有la-lb≤lb-lc≤la-lc, 球體代表不同濃度值下的吸光度值, 球心A、B、C為同一濃度的吸光度均值。 由于人體血液是流動變化的, 因此可能存在偏離中心值的數據。 選擇的波長應保證同一濃度數據盡量集中, 不同濃度中心點的期望滿足如下序關系Dab≤Dbc≤Dac。

圖1 算法原理可視化圖

圖2 近紅外光譜成像儀

設原始光譜信號值為xi, j(k),i=1, 2, …N;j=1, 2, …,L;k=1, 2, …,K。

首先, 對原始光譜信號值做多元散射校正(MSC)

(2)

式(2)中,F為多元散射校正函數, 使用吸收光度法的基本定律Lambert-Beer求吸光度

(3)

對吸光度Ai,j(k)歸一化

(4)

(5)

(6)

Qi, m(k)刻畫標簽差值與均值差值的比例, 由式(5)可知, 當特定波長下, 吸光度方差越小, 且Qi, m(k)取值越接近1時, 即標簽差值與均值差值變化量越保持一致時,LS取值越大。 根據LS值大小重新對波長序列排序。

1.2 SVR算法原理

SVR是支持向量機在回歸問題上的應用。 根據上述給定的吸光度數據和血糖濃度數據, SVR的訓練數據為D={(x1,y1), (x2,y2), …, (xN,yN)}, 最終得到一個回歸模型f(x)=ωTx+b, 使得f(x)與y接近, 其中ω和b是參數。 在回歸問題中, 給定一個邊界值φ, 即當|f(xi)-yi|≥φ時計算損失。

SVR的優化目標為

(7)

式(7)中,C為正則化常數,lφ為損失函數, 表示為

(8)

引入松弛變量ξi和拉格朗日乘子ui, 優化目標變為

(9)

(10)

即f(x)的解為

(11)

若0

(12)

(13)

2 實驗部分

2.1 方案設計

為獲取更高質量的實驗數據, 本文設計OGTT葡萄糖耐量實驗, 并搭配使用近紅外光譜成像儀(注: 型號是HyperspecTM, 波長范圍為900~1 700 nm, 可調節范圍)測量反射光譜。 實驗開展之前, 志愿者保持10 h以上空腹, 保持人體狀態穩定。 選取右手食指作為測量位置, 被測對象在5 min內飲入250 mL含75 g的無水葡萄糖粉劑的水溶液, 在2.5 h內被測對象的血糖濃度會出現一個從谷到峰, 最終回到谷底并震蕩的趨勢。 因此測量時間設定為3 h, 考慮儀器運行時長導致光源溫度升高從而造成的光源不穩定, 在每次采集前進行白板矯正。 并探究接觸壓力對測量的光譜信號的影響, 確保手指與端面輕微穩定的接觸。 實驗獲取4人、 每人兩天, 每天14個時刻、 每時刻測量90條與人體血糖相關的譜帶信息, 共有112個濃度、 10 080條數據, 每條數據對應164個波長。

2.2 數據預處理

使用近紅外光譜成像儀測量光譜數據, 測到的表征數據為三維的Raw數據文件, 每組重復掃描90次, 每個像素點包含164個波段的光譜數據, 應用圖像邊緣檢測算法截取食指指尖ROI區域的光譜信號值, 并在特定區域內進行數據平均處理。 簡單處理后使用Lambert-Beer定律求得的原始吸光度如圖3。

圖3 四名志愿者所有濃度原始吸光度圖

當考慮到血液的散射效應時, 不同波長光程長不一致, 即會導致脈動血液光程變化量不同, 考慮去除部分散射效應的影響, 引入多元散射校正方法。 多元散射校正方法由Martens等首先提出, 是一種多變量散射校正技術, 用于分離散射介質光譜中物理光散射信息和化學光吸收信息, 然后消除不同光譜之間的物理散射信息差異, 光譜進行MSC預處理能有效減少模型的最佳因子數, 簡化數學模型、 使模型更穩定[19]。 由圖3, 900~1 000 nm區間內的16個波長數據噪聲大, 參考動態光譜數據質量評價截取1 000~1 700 nm區間的數據進行分析[20]。 對上述原始反射數據多元散射矯正后, 再使用Lambert-Beer定律求得的吸光度圖如圖4。 由圖4可知, 針對每名志愿者28個濃度2 520條數據, 使用多元散射校正后的數據更集中, 數據質量有明顯提升。

圖4 四名志愿者所有濃度MSC后吸光度圖

3 結果與討論

3.1 特征維數優化分析

3.1.1 對比算法: FS算法

FS算法的思想是若某固定波長對動態血液中血糖濃度變化比較靈敏、 區分度大, 其對應光譜數據應該具有兩個特點: (1) 相同濃度的近紅外吸光度分布比較集中, 即相同濃度數據的方差較小; (2)不同濃度的近紅外吸光度具有較好的分離性, 即相鄰濃度數據均值之差較大。 據此給出FS算法原理FS算法的提出, 將特征波長挑選轉化成了區分度取值排序問題。

(14)

3.1.2 特征維數的優化分析

截取1 000~1 700 nm區間內149個波長的數據。 由式(5)和式(6)根據標簽敏感度算法對波長序列重新排序得到波長敏感度排序圖(圖5), 其中橫坐標為根據敏感度值重新排序后的波長序列, 縱坐標為LS(k)數值。 顯然, 不同波長的貢獻值不同, 選擇原始光譜信號值區分度高的波長非常有必要。

圖5 四名志愿者的波長敏感度圖

回歸算法的運算速度和復雜性跟數據的特征維數密切相關。 挑選出的特征波長的數量多少會影響預測結果。 因此, 通過分析不同特征維數對模型的影響, 確定最優特征波長數目是本節的研究重點。 本小節設計對比實驗, 探究不同波長數目對預測集的均方根誤差、 相關系數的影響。

如圖6示, 每組光譜數據選用的特征波長數l對預測精度影響的結果, 從圖中得到以下結論: (1)均方誤差和相關系數兩種評價指標, 我們提出的LS算法表現總體優于FS算法。 (2)增加特征波長數l可提升支持向量機回歸的預測精度, 當l≥32之后, 兩種評價模型均區域收斂, 此時仍再增加特征波長數會進一步使計算復雜, 但對于回歸精度的提升十分有限。 (3)為確保預測精度高的前提下計算復雜度不高, 確定志愿者A的特征波長最佳維度為32。

圖6 特征維數對FSSVR、 LSSVR模型預測精度的影響(志愿者A)

圖7 志愿者A的交叉驗證克拉克誤差分析圖

3.2 實驗對比與結果分析

單一血糖濃度選取90個光譜樣本, 每幀光譜應用算法篩選前32個特征波長, 利用合適的超參數和訓練數據訓練模型, FSSVR和LSSVR預測與PLSR預測的5折交叉驗證結果如表1所示。

表1 四名志愿者交叉驗證預測結果

由表1可知, 以志愿者A為例分析, 使用PLSR回歸無創血糖濃度中, 實際測量濃度與預測的數值相關性低, 預測效果差。 與之相比FSSVR的相關性有56.6%的提升, 并且均方根誤差下降了91.17%, 回歸效果較好。 LSSVR算法, 較FSSVR算法預測效果有進一步提升, 預測值與真實值保持一致相關系數高達99.8%, MSE下降至0.009。 由此證明, LSSVR具有最優的預測效果。

為便于觀察數據最終的預測效果, 使用克拉克誤差分析圖, 克拉克誤差分析認為A區可允許誤差為, 落在A區的數據占全部數據的比值是預測效果的重要評價標準之一。 由圖6可知FSSVR算法預測性能較PLSR明顯降低。 而LSSVR的預測效果進一步提升, 預測值與原始標簽值保持高度一致。

4 結 論

提出了與標簽差值相關聯的特征波長挑選算法LS算法, 分別使用PLSR、 FSSVR、 LSSVR回歸模型設計對比實驗, 并探究最優特征波長數的優化分析, 結果表明當最優波長數量為32時, 評價指標均趨于穩定、 相對預測效果最佳。 在選定前32維特征波長后, 交叉驗證實驗表明LSSVR的預測值與真實值保持高度一致, MSE、P、R2三種評價指標較前兩類方法均有顯著提升, 驗證了LSSVR的優勢。

人體是一個復雜的系統, 人體組織在不同時間、 不同位置、 不同環境下光學性質有所差異。 并且不同個體之間, 手指尺寸、 各組織厚度和血液搏動幅度等生理上的不同, 也會造成光譜信息有很大的差異。 這是我們提出的LS算法的基礎。

不同的回歸算法使用性能三角形評估算法的預測效果如圖8。X軸為預測值與真實值的相關系數。Y軸位于clarke網格A區域的概率, 越靠近1證明落在可允許的誤差范圍內的數據占比越大。Z軸為預測值與真實值的均方根誤差, 誤差越小, 預測性能越佳。 以性能三角的頂點與原點組成的性能四面體觀測算法的表現效果, 以XOY平面為底面, OZ為高。 當底面OPR三角形的面積越大, 并且OM的取值越小時性能越佳。 圖8給出的效果更直觀, LSSVR在不同志愿者的數據預測準確率較前其他方法均有明顯提升, 由此證明LSSVR具有普適性。

圖8 四名志愿者不同算法的性能三角形

提出的LSSVR表現優異, 結合支持向量機回歸對預測集的交叉驗證預測精度極高, 期望在后續工作中重新劃分數據集, 希望當測試集為從未參與訓練的濃度數據時, 模型仍能保持優異。 還可以進一步對回歸方法做改進, 深度神經網絡發展迅猛, 在未來工作中考慮將深度神經網絡引入回歸模型中, 為進一步推進無創血糖的進展做出貢獻。

猜你喜歡
光度波長光譜
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
基于三維Saab變換的高光譜圖像壓縮方法
乘用車后回復反射器光度性能試驗研究
雙波長激光治療慢性牙周炎的療效觀察
Interaction Study of Ferrocene Derivatives and Heme by UV-Vis Spectroscopy
日本研發出可完全覆蓋可見光波長的LED光源
星載近紅外高光譜CO2遙感進展
黑洞的透射效應和類星體的光度
便攜式多用途光波波長測量儀
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合