?

基于自適應多尺度腦功能連接的局灶性癲癇發作檢測方法研究

2022-11-24 07:19徐嘉陽楊婷婷杜昌旺劉曉芳盛多錚閆相國
中國生物醫學工程學報 2022年4期
關鍵詞:腦電降維電信號

徐嘉陽 楊婷婷 李 雯 李 擴 杜昌旺 劉曉芳 盛多錚 閆相國 王 剛#*

1(生物醫學信息工程教育部重點實驗室,西安交通大學生命科學與技術學院, 健康與康復科學研究所,西安 710049)

2(西安交通大學第一附屬醫院神經外科,西安 710061)

3(北京瑞爾唯康科技有限公司,北京 100071)

引言

癲癇是一種以突然、短暫、反復的癲癇性發作為特征的慢性神經系統疾病或綜合征[1]。癲癇性發作則是大腦內神經細胞群陣發性異常超同步電活動的臨床表現。反復、突然的癲癇性發作十分危險,不僅威脅到患者生命,還為其家庭增添了較大的負擔。在臨床上,醫生通常利用長時程腦電圖(electroencephalogram,EEG)來監測癲癇發作,然而由于這項工作乏味、耗時,并且很大程度上依賴于臨床醫生的自身經驗和主觀判斷,導致人工檢測結果的準確性和可重復性較低[2]。為了使得癲癇發作可以在較短的時間內被檢測到,癲癇腦電自動檢測和識別技術的發展尤為關鍵。

腦電信號具有非平穩性和非線性特征,因此腦電信號分析往往以傳統的時域、頻域或者時頻結合的方法為主,通過計算各種非線性的特征值來區分腦電信號[3]。大多數的數據預處理方法是用小波變換對信號進行分解[4],但是分層數、基函數的選擇對結果產生很大影響,不具備對信號自適應的分解能力。本研究采用多元經驗模態分解( multivariateempiricalmodedecomposition,MEMD)[5]處理信號,此方法不需要根據先驗知識選擇基函數,能同時對多通道數據進行自適應分解,適合于分析具有高度相關性和非平穩性的腦電信號,可以增強定位腦電信號的頻率信息的準確性,從而有效地提高對腦電信號的識別能力[6]。

目前所采用的癲癇檢測方法多使用EEG 的幅值、主頻率、變異系數、熵值等作為分類特征,然后利用支持向量機(support vector machine, SVM)[7]、決策樹(decision tree, DT)、隨機森林(random forest,RF)等方法進行腦電分類。但是,這些方法沒有將大腦作為一個有機整體,沒有考慮在產生行為變化或生理功能改變時大腦各部分之間會存在信息交換和流動。盡管這些方法在短時程腦電上檢測結果表現優異,但在長時程腦電上檢測結果的精確率指標偏低,不符合實際的臨床需求。此外,在實際長程腦電的檢測中,發作期的時間要遠遠短于非發作期的時間,數據集不平衡導致分類器決策邊界偏移,最終影響到模型分類效果。因此,本研究采用有向傳遞函數(direct transfer function,DTF)計算不同腦區之間的流出信息,區分在癲癇發作時間段內和正常狀態下不同腦區之間的信息流動的差異,并且采用代價敏感支持向量機(cost-sensitive support vector machine,CSVM)對提取的特征信息進行分類,利用不同類別的樣本被誤分類而產生不同的代價進行分類學習,從而解決數據不平衡帶來的問題。

本研究利用多元經驗模態分解將腦電信號分解出一系列本征模函數,利用其流出信息度作為特征,經過特征組合與降維后,通過CSVM 進行癲癇發作檢測。結果表明,此方法具有較高的準確率、精確率、召回率及F2 值,達到了較好的癲癇發作檢測效果。

1 材料和方法

1.1 實驗對象

所用數據均源于西安交通大學第一附屬醫院,采用NIHON KOHDEN 公司的EEG-1100 腦電圖機進行數據采集。該數據的采集使用19 導電極,電極位置按照國際10/20 標準,以頭頂CZ 的電極為參考電極。數據的通帶截止頻率為0.5 ~60 Hz,采樣頻率為200 Hz。數據中關于癲癇發作點以及棘波波形的信息由交大一附院的兩位具有臨床經驗的醫生通過觀察和評估被測患者的實際臨床記錄和表現進行標注。腦電數據的總時長為121.8 h,包含了44 次發作,其中癲癇發作期的平均時間98.7 s。

表1 給出了10 位患者的相關腦電數據信息。數據采集通過了西安交通大學機構評審委員會的批準,所有受試者都簽署了腦電數據采集和后續腦電圖記錄分析的知情同意書。

表1 患者信息表Tab.1 Patient Information

1.2 癲癇檢測算法

為了在長時程腦電中識別發作期的腦電,本研究提出基于自適應多尺度腦功能連接的癲癇發作檢測方法(adaptive and multiscale brain functional connectivity, AMBFC)。首先利用多元經驗模態分解的方法,將19 個通道的腦電信號分解為7 個本征模函數(intrinsic mode function,IMF)分量和殘量,接著再分別對7 個IMF 分量和殘量及原始的腦電信號建立多變量自回歸模型,用有向傳遞函數算法,提取不同IMF 分量的腦電信號和原信號在不同腦區的流出信息強度作為特征信息,并將此特征信息進行特征組合和PCA 降維,最后經過代價敏感支持向量機分類器,通過五重交叉驗證得到檢測結果。具體流程圖如圖1 所示。

圖1 所提出的癲癇檢測算法(AMBFC)流程Fig.1 Flow chart of a novel epilepsy detection algorithm

1.2.1 多元經驗模態分解

經驗模態分解(empirical mode decomposition,EMD)是一種自適應信號時頻分析方法[8],可將信號分解成一系列IMF,其在處理腦電信號這一類非平穩非線性隨機信號上具有明顯的優勢。然而,EMD 在處理多通道腦電圖信號方面的應用仍然有限,故MEMD 作為傳統經驗模態分解的多元拓展引入癲癇發作檢測這一領域。

首先采用滑動窗將腦電信號分割成短時信號。由于腦電信號在采集的過程中,經過了0.5 ~60 Hz濾波,因此,為了在后續分析的過程中能夠分辨頻率為0.5 Hz 的腦電信號,需要將腦電信號分割為時長至少為2 s 的片段。本研究選用2 s 的無重疊窗對腦電信號進行分割。

在t時刻,一個經過窗分割之后的N導聯(N=19)的腦電數據為

式中,Xn(t) 表示第n個通道的腦電信號。對此信號進行MEMD 分解,以下為具體步驟[5]:

步驟1:采用Hammersley[9]序列采樣法,xθk=[x1,k,x2,k,…,x19,k]表示在18 維球面上對應角θk={θ1,k,θ2,k,…,θ19,k}的方向向量集;

步驟2:計算原始腦電信號{X(t)}(1≤t≤T)在第k個方向向量xθk上的投影為{pθk(t)}(1≤t≤T),k為方向向量的總數;

步驟3:找到方向向量的投影信號{pθk(t)}(1≤k≤K) 極值對應的瞬時時刻{ti,θk}(1 ≤k≤K),i表示極值點位置,i∈[1,T];

步驟4:用多元樣條插值函數插值極值點[ti,θk,X(ti,θk)]共得到K個多元包絡{eθk(t)}(1 ≤k≤K)

步驟5:對于球空間K個方向向量,局部均值可由下式計算:

步驟6:通過d(t)=v(t)- m(t) 提取固有模態函數d(t),如果d(t) 滿足多元模態函數IMF 判斷標準[10],就將v(t)- m(t) 作為輸入信號重新提取新的多元IMF 分量。由于不同信號分解出來的固有模態數目有差異,為了便于分類,需使得固有模態數目一致,故選用IMF 1~IMF 7。

經過多次MEMD 分解,原始的19 通道腦電信號{X(t)={X1(t),X2(t),…,X19(t)} 被分解為一系列IMF 分量和余量r(t) 的和,為

式中,s為IMF 的個數(s=7),di(t)={di,1(t),di,2(t),…,di,19(t)},r(t)={r1(t),r2(t),…,r19(t)}對應于19 通道腦電數據的19 組7 個IMF 分量和19 個余量。

定義Q(t) ={q1(t) ,q2(t) ,…,q9(t) }, 其中qi(t),i =1,2,…,9 表示為

1.2.2 基于有向傳遞函數的特征提取

多通道腦電之間的相互關系可以用于評估腦區各部分的信息交流,而有向傳遞函數可以反映不同通道的腦電信號的相互關系[11]。為利用有向傳遞函數進行特征提取我們首先對每個qi(t)(i =1,2,…,9) 建立多變量自回歸模型(MVAR),然后在求得MVAR 模型系數的基礎之上,利用有向傳遞函數(DTF)提取不同腦區的流出信息強度,該特征能夠反映不同腦電通道之間的流出信息。

在t 時刻,qi(t) 可以表示為

式中,N的取值為19。通過多通道自回歸模型,該序列又可以表示為

式中,p表示MVAR 模型的階數,Ar為N×N的系數矩陣,r =1,2,…,p;E(t) 表示估計誤差,理想情況下為均值為0 的非相關白噪聲。

模型的階數可以通過 Schwarz' s Bayesian Criterion (SBC)[12]來確定:系數矩陣Ar的估計可以用arfit[13]算法求得。然后對所獲得的MVAR 模型求得的系數矩陣Ar作傅里葉變換,有

式中,f為離散頻率變量。定義的傳遞矩陣為

進而獲得在頻率f上從導聯j到導聯i的信息流:

式中,(f) 表示H(f) 的第i行第j列的元素,hi(f)表示矩陣H的第i列;DTFij(f) 表示在頻率f時從導聯j到導聯i的信息流的強度和方向。

1.2.3 特征提取和降維

DTF 提取的特征為不同頻率下各腦電極信號的信息流通情況,因此,對于每一個頻率均提取19×19 的特征矩陣,在同一頻段內,若有M 個頻率數,則該特征矩陣的大小為19×19×M,這樣的特征過于龐大,不利于分類器分類。因此,需要對特征進行降維和組合,具體的步驟如下:

步驟1:將所有頻率下的特征值的平方進行累加,即

此時得到了某個頻段內各個通道之間的信息流動的強度特征,這一步使得特征矩陣由19×19× M壓縮到19×19。

步驟2:考慮到在癲癇發作期癲癇病灶區有高強度的放電,此區域的腦電信息流出強度會加大,故將特征值矩陣按列(或按行)累加就能得到每個通道的流出信息的強度,即

此時,特征矩陣由19×19 被壓縮至19×1。將Q(t) 中每個qi(t) 得到的特征矩陣進行線性組合,得到171×1 的一維矩陣。

由于特征數目過多,選用主成分分析方法,對特征進行降維,利用線性矩陣變換,將高維空間的數據映射到低維空間。設樣本為X =(x1,x2,…,xn),則算法的具體步驟為:

步驟2:計算樣本的協方差矩陣:

步驟3: 利用奇異值分解( singular value decomposition, SVD),求出協方差矩陣的特征值及對應的特征向量;

步驟4:對特征值從大到小排序,根據貢獻度,選擇最大的k個值,將其特征向量分別作為行向量組成特征矩陣P,其中,k值的大小由特征值數目的占比決定;

步驟5:將數據轉換到k個特征向量構建的新空間中,即Y=PX。

將經降維后的特征放入分類器進行學習,從而區分發作期的腦電信號和非發作期的腦電信號。

1.2.4 代價敏感支持向量機分類

由于在使用SVM 模型時,要求正反標記的樣本量相差不大,然而在實際長程腦電中,癲癇發作期的時間遠遠短于非發作期,使得樣本數目相差較大,從而造成SVM 模型傾向于數目較多的一類樣本,進而影響分類模型的準確度?;诖?,引入CSVM[14],該方法在建模時將不同類別樣本的誤分類代價考慮在內,并將這些誤分類代價嵌入到標準SVM 算法中。

CSVM 算法和SVM 算法的主要區別在目標函數上。其目標函數和約束條件為

目標函數:

約束條件:

式中,C-=C,C+=w1×C-,C是支持向量機SVM 的基懲罰因子,w1 是懲罰因子調整系數。

采用網格搜尋的方法[15]對算法中的參數C和w1 尋優,選用高斯徑向核函數,懲罰系數C的取值范圍為2-10~210,步長為0.5,w1 的取值范圍為1 ~21,步長為0.5。通過C和w1 的不同取值,我們使用一個指標Fβ作為評估值,找出Fβ最高時對應的參數,此時即為相應的最優參數組合。Fβ表示為如下:

式中,真陽性(TP)表示算法和醫生都判斷為發作期的片段數;假陽性(FP)表示算法識別為癲癇發作期而醫生標記為非發作期片段數;真陰性(TN)表示算法和醫生都判斷為非發作期片段數;假陰性(FN)表示算法識別為非發作期而醫生標記為發作期片段數。此處,將β取為2(此權重使得FN 的意義大過FP),因此式(14)可以表示為

為了對結果進行更精準的評估,用于測試的數據必須與用于訓練模型的數據區分開來。因此,我們采用雙重交叉驗證的方法,首先將每一個患者的腦電數據平均分為5 組,每次用4 組數據做訓練,一組數據用來測試。為了在訓練中建立最優的CSVM 分類器,對訓練集進一步進行五折交叉驗證。隨機選擇訓練集的80%,建立CSVM 模型,并利用該模型在其余20%的訓練集上的驗證結果計算Fβ,以此來評估和選擇最優模型。CSVM模型訓練完成后,通過預留的測試集測試模型,評估該模型。將5 次的結果進行平均,作為最終測試結果。

1.2.5 算法評估標準

通過比較本文算法對癲癇發作期、非發作期的檢測結果與醫生所做標記的差別,將每個患者的五次交叉驗證的平均結果作為依據,評估算法的性能。本文采用以下幾項指標進行評估,這些指標定義如下[16-17]:

(1)準確率(Accuracy)

(2)精確率(Precision)

(3)召回率(Recall)

(4)F2 值

2 結果

2.1 AMBFC 算法的癲癇發作檢測結果

經過2 s 時間窗分割,所獲得的訓練樣本的平均非發作期片段數為12 439,平均發作片段數為157,測試樣本的平均非發作期片段數為3 110,平均發作期片段數為39。經實驗發現,如果降維時保留特征信息的數目為原特征數目的85%,可取得最優結果,因此在PCA 的過程中,將主成分占比設置為85%。

10 位患者癲癇發作檢測的結果及平均值如表2 所示。通過五重交叉驗證,得到10 位患者癲癇發作檢測的準確率為98.60% ±2.49%,精確率為81.90%±16.67%,召回率為81.40%±14.16%,F2值為0.80±0.16。本方法的各項指標都在較高的水平。

表2 不同癲癇患者使用AMBFC 方法的癲癇檢測結果Tab.2 Epilepsy test results of different epilepsy patients using the proposed AMBFC method

2.2 基于DTF 不同本征模函數癲癇檢測結果對比

為了討論不同IMF 分量的腦電特征對檢測結果的影響,利用IMF1 ~4 的特征分別進行CSVM 分類,并與AMBFC 算法得到的結果進行比較。首先利用MEMD 分解得到IMF1~4,然后采用DTF 算法求出IMF1~4 的信息流出特征,進行CSVM 分類,并與用AMBFC 進行分類的結果進行比較。僅針對患者1 進行研究,將各IMF 分量的癲癇發作檢測結果與AMBFC 算法的檢測結果進行比較。

基于準確率、精確率、召回率、F2 值等4 項指標的對比結果如圖2 所示。由圖可見,AMBFC 算法在保證高準確率的情況下,在精確率、召回率和F2 值等指標上也都達到了很高的水平,并且用AMBFC方法提取特征的各項指標均高于用各IMF 分量提取特征的指標,說明了AMBFC 算法對于這些癲癇患者的分類結果相比于用各IMF 分量作特征提取和分類更具有優勢。由于各IMF 分量的信號可以為癲癇檢測提供不同的有用信息,將這些信息聚集在一起可以為CSVM 分類提供更多癲癇發作信息交換特征,所以AMBFC 算法可以提升癲癇檢測的準確率、精確率、召回率和F2 值。

圖2 用不同IMF 分量的特征進行癲癇發作檢測結果對比圖Fig.2 Comparison of results of epileptic seizure detection using features of different IMFs

利用患者1 的隨機2 000 個非發作期樣本和30個發作期樣本,對不同IMF 分量的腦電信號進行信息流特征提取,并利用t-SNE 降維[21]可視化。藍色的點表示非發作期樣本,紅色的點代表發作期樣本。其中,圖3 (a)為IMF1 分量的流出信息特征t-SNE 降維可視化的結果,圖3 (b)為IMF2 分量的流出信息特征t-SNE 降維可視化的結果,圖3 (c)為IMF3 分量的流出信息特征t-SNE 降維可視化的結果,圖3 (d)為IMF4 分量的流出信息特征t-SNE 降維可視化的結果,圖3 (e)為原信號和全部IMF 分量(即AMBFC 算法)的流出信息特征t-SNE 降維可視化的結果。

圖3 不同IMF 分量特征經t-SNE 降維可視化結果。(a) IMF1;(b)IMF2;(c)IMF3;(d)IMF4;(e)AMBFC Fig.3 t-SNE dimension reduction visualization results of different IMF component characteristics. (a) IMF1;(b)IMF2;(c)IMF3;(d)IMF4;(e) AMBFC

可以看出,IMF1 ~4 分量的腦電信號提取出的特征經過降維可視化之后,發作期和非發作期的樣本均有較高的重合性,視覺可分性不理想,而AMBFC 提取的特征視覺可分性要明顯優于各IMF分量。這些可視化降維的結果與圖2 中各項指標的分類結果一致。

2.3 基于不同算法的癲癇發作結果對比

為了更加客觀地對AMBFC 方法的癲癇發作檢測性能進行評價,選取DTF-CSVM 算法和近幾年文獻中報道的最新方法,用相同的數據集進行模型的訓練和測試。其中,DTF-CSVM 算法相較于AMBFC算法,直接采用DTF 提取特征[18],而未對腦電信號進行MEMD 分解,即僅對原信號建立MVAR 模型,提取各通道腦電數據的信息流特征,隨后將特征進行組合和CSVM 分類。AMBFC、DTF-CSVM 方法及與最新論文[19-20]]對比的結果如表3 所示。由表可見,相較于DTF-CSVM 和EWT 算法,AMBFC 算法在各項指標上都取得了最優結果,而相比于Fusion 算法,在除召回率之外的其他指標上都取得了更優結果,由于癲癇發作期和非發作期的樣本存在嚴重非均衡化的問題,需要同時評估其精確率和召回率,本研究將F2 值作為最主要的評判指標,基于此認為AMBFC 算法相較于Fusion 算法結果更優。

表3 使用不同方法的癲癇檢測結果對比Tab.3 Comparison of epilepsy detection results employing different methods

3 討論

目前,腦電在癲癇的臨床診斷中已經有較為廣泛的應用。本研究針對長時程腦電癲癇發作檢測的問題,采用AMBFC 算法對采集的腦電信號進行癲癇發作檢測。首先利用MEMD 算法對腦電進行自適應分解,再通過多變量自回歸模型計算有向傳遞函數,建立多尺度的腦功能連接,從而提取不同腦區之間的信息流出強度,最后利用代價敏感支持向量機對發作期和非發作期的數據進行分類,在準確率、精確率、召回率和F2 值等4 項指標上取得了較優的結果,為長時程腦電中的癲癇檢測提供可行方案。

由于采集到的腦電信號具有多通道、非線性、非平穩性的特點,采用MEMD 算法對多通道數據進行自適應分解。MEMD 是一種數據驅動的分解方法,可定位多變量、非平穩、低信噪比的腦電信號的時頻信息,且具有較強的自適應性,有助于在多個尺度上發現內在模式,而不要求信號為諧波信號或平穩信號[22-23]。本研究通過比較ABMFC 和DTFCSVM 算法,證實了MEMD 算法可以增強定位腦電信號的頻率信息的準確性,從而提高了對發作期和非發作期腦電的識別能力。此外,通過比較AMBFC算法與不同IMF 分量的癲癇檢測結果,證明了相較于單個頻段的信息,不同頻段的信息的組合能夠為腦電癲癇檢測提供更多有效信息。

癲癇發作時,由于神經元動作電位發放的同步性,多通道腦電之間的信息流強度與非發作時相比存在顯著差異[18],而利用基于格蘭杰因果的效應性連接分析方法可以有效地衡量不同腦區之間的交互性連接[24],此前也有相關研究將DTF 算法應用于癲癇發作的檢測和預測中[18,25]。因此,本研究利用DTF 算法做特征提取,提取不同腦電通道之間的流出信息,將此作為分類依據可以有效地區分發作期和非發作期的腦電信號。而且通過實驗證明,利用PCA 降維保留原始特征數目的85%,可以達到更優的分類結果,表明了原始的特征數目過多,可能造成了分類器的過擬合。

同時,由于非發作期的樣本數量遠遠多于發作期的樣本數量,因此采用CSVM 進行分類,可以使得不同樣本的誤分類具有不同的代價[14]。為了綜合考慮精確率和召回率,采用F2 值作為模型訓練時的評估指標。根據網格搜尋方法,確認F2 值最高時懲罰因子C和懲罰因子調整系數w1 的取值,通常情況下參數w1 的取值大于1,表明相較于較多數量的非發作期樣本,CSVM 算法賦予了較少數量的發作期樣本更高的誤分類代價,凸顯出準確識別發作期的樣本的重要性,從而改善了樣本嚴重非均衡化帶來的問題。

本研究從自適應多尺度腦功能連接的角度出發,提取不同頻段腦區之間的信息流出強度,可有效區分發作期和非發作期的腦電,相較于傳統算法達到了更高的精確率和召回率,在與新近提出方法的比較中也體現出了一定的優越性。但同時也具有一定的局限性,長期的頭皮腦電記錄中存在高頻肌電偽影,會對實驗結果造成一定的影響,另外,將全部腦電通道的信息流出強度作為有效特征,而未進行通道選擇,不能為癲癇病灶的定位提供有力依據。

4 結論

本研究針對長時程腦電癲癇發作檢測的問題,提出一種新的基于自適應多尺度腦功能連接的癲癇發作檢測方法。通過結合MEMD 算法和MVAR模型,對具有非平穩特征的腦電信號提取流出信息強度,并進行特征組合與PCA 特征降維,最后經CSVM 分類區分發作期和非發作期腦電。本研究提出的算法在高準確率的基礎上,達到了較高的精確率、召回率和F2 值,并具有一定優越性,有望應用于長時程腦電的實時監測。

猜你喜歡
腦電降維電信號
混動成為降維打擊的實力 東風風神皓極
基于聯合聚類分析的單通道腹部心電信號的胎心率提取
降維打擊
基于Code Composer Studio3.3完成對心電信號的去噪
基于隨機森林的航天器電信號多分類識別方法
現代實用腦電地形圖學(續)
現代實用腦電地形圖學(續)
現代實用腦電地形圖學(續) 第五章 腦電地形圖的臨床中的應用
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
現代實用腦電地形圖學(續) 第五章 腦電地形圖在臨床中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合