?

基于遷移學習的跨被試腦電疲勞駕駛檢測

2023-10-09 13:56邱軼輝魏玲玲張衛平邱桃榮
南昌大學學報(理科版) 2023年4期
關鍵詞:微調源域準確率

邱軼輝,江 瓊,魏玲玲,張衛平,邱桃榮*

(1.南昌大學數學與計算機學院,江西 南昌 330031;2.九江學院計算機與大數據科學學院,江西 九江 332005)

交通意外一直是導致人類死亡的主要原因之一,并且其發生數量有逐年上漲的趨勢[1]。有統計數據顯示,由疲勞駕駛引起的交通事故占到交通事故總量的40%,并且往往導致更嚴重的后果[2]。因此,研究疲勞駕駛狀態的識別對減少交通事故發生和改善道路安全環境具有重要意義。

針對疲勞駕駛狀態的檢測,國內外眾多學者均進行了相關的研究。目前,檢測方法可以分為主觀評定法和客觀檢測法兩大類[3]。一是主觀評定法:通過駕駛員填寫心理問卷或他人對駕駛員的評價來判斷疲勞程度,常用的心理測量問卷有:斯坦福嗜睡表和卡洛琳斯卡睡眠尺度表[4]等,主觀評定法操作簡單,但只能離線檢測用于事后分析。二是客觀檢測法:通過對駕駛員駕駛過程中產生的腦電圖[5]、心電圖[6]、眼電圖[7]、肌電圖[8]等生理信號和駕駛員頭部面部特征及方向盤角度偏移等車輛特征進行分析來判斷駕駛員的疲勞狀態,其中腦電信號由于具有時間分辨率高、無創性、低成本等特性,已被認為是疲勞駕駛識別的“金標準”。

腦電圖(Electroencephalogram,EEG)利用頭皮上放置的電極檢測和記錄大腦內電信號的變化,通過分析EEG我們可以對大腦狀態進行判斷。已經有許學者對利用腦電信號判斷疲勞駕駛狀態進行了研究。例如,Mu等[9]提出了基于熵的特征提取方法,并篩選了特定電極用支持向量機(Support Vector Machine,SVM)進行分類,在自建數據集上得到了98.75%的平均準確率。針對SVM在處理高質量數據時表現良好但在面對復雜數據時表現不佳的問題,San等[10]提出了一種混合深度遺傳模型來進一步彌補SVM在處理復雜不變性方面的不足,并用于疲勞駕駛狀態的檢測。劉卓等[11]將腦電信號作為函數型數據進行分析,著重研究其連續性和內部動態變化并分類。上述研究均在各自場景下對疲勞駕駛檢測有一定貢獻。

然而多上述研究多集中在對同一被試的腦電進行分析,由于腦電信號具有特異性和非線性特征,進行跨被試檢測時會出現協變量偏移的問題,這導致跨被試的疲勞駕駛檢測結果并不樂觀。近年來也有學者注意到這一點,提出了許多結合遷移學習的跨被試EEG疲勞駕駛檢測方法。例如Gu等[11]提出了一種幾何保留遷移判別字典學習方法,通過將不同域的信號投影到公共子空間,得到一個共享判別字典,再利用圖拉普拉斯正則化和主成分分析正則化分別對幾何結構信息和判別信息進行挖掘,進行跨被試分類。Hong等[13]將域對抗神經網絡與生成對抗網絡相結合,通過解決EEG在不同被試之間分布不同的問題來增強跨域檢測能力。Zanini等[14]提出了一種基于黎曼空間測地線的對齊方法(Riemannian space Alignment,RA)用于在黎曼空間減少域間差異。He等[15]針對RA需要一定標簽和計算效率低的問題提出了在歐幾里得空間對齊的方法(Euclidean-space Alignment,EA),并在多個數據集上明顯提高了準確率。

然而EA需要大量源域數據用于計算參考協方差矩陣來對齊。這在意味著該方法在疲勞駕駛檢測中只能用于事后分析,而不能用于實時檢測。因此,本文從實際應用出發,提出一種利用基于源域數據和目標域數據參考矩陣相似度的加權平均對齊方法(Weighted Average Euclidean-space Alignment,WAEA)。該方法在僅有少量目標域樣本可用時能對疲勞駕駛狀態進行及時的判斷,并結合基于模型的遷移學習方法,使用微調的技術提升跨被試疲勞駕駛分類準確率。

1 相關理論與方法

1.1 歐式空間對齊

首先介紹原始的歐式空間對齊方法EA,其基本原理是使來自不同被試的數據分布更加相似,因此在源域數據上訓練的分類器將有機會在目標域上上表現良好。EA計算每個被試的EEG試次的平均樣本協方差矩陣,再通過數據對齊的方法將每個被試的樣本協方差矩陣重新居中在單位矩陣處,使對齊的EEG試次被白化,降低數據的冗余性,這有利于后續的特征提取和分析。

1)首先計算一個被試的平均協方差矩陣:

(1)

2)將R作為參考矩陣,對該被試所有樣本執行對齊計算:

(2)

對源域和目標域的所有被試都進行上述對齊后就完成了EA。經過歐式空間對齊后,一個被試所有N個對齊數據的平均協方差矩陣為:

(3)

式中,I是單位矩陣。

經過EA對齊算法使所有被試的平均樣本協方差矩陣與對齊后的單位矩陣相等,因此來自不同被試的空間協方差矩陣的分布會更相似,鑒于樣本協方差矩陣是EEG信號的一個重要統計量,用戶間的差異也會變小,這正是遷移學習想要達到的效果,該處理在傳統機器學習和深度學習方法上都得到了驗證。

然而通過式(1)可以看出EA對齊算法需要使用全部數據計算參考矩陣,這使得該算法在許多領域不適用,在疲勞駕駛領域上EA僅能用于事后分析,不能起到及時檢測的作用。因此我們提出了一種改進的EA算法,使其能用于僅有少量目標域數據可用時的對齊。

1.2 改進的歐式空間對齊

當有少量目標域數據時可用,應當充分利用該部分數據進行對齊,然而傳統EA僅用少量目標域數據計算得到的參考矩陣不能很好的代表目標域上的數據分布為降低數據過少時計算參考矩陣的偏差,考慮使用源域中參考矩陣進行輔助,并利用矩陣之間的余弦相似度作為權值,進行加權平均對齊WAEA。

1)由于源域數據全部可用,首先對源域數據進行EA,對源域中m個被試分別計算參考矩陣記為R1,R2…Rm,并對源域中每個被試數據對齊,方法同式(1)和式(2)。

2)利用目標域中可用的M個樣本計算目標域上的部分參考矩陣RT:

(4)

由于計算RT使用的數據較少,不能很好的反映目標域上數據分布,且具有較大波動性,考慮加入源域中被試的參考矩陣用于對齊。

(5)

4)根據矩陣相似度使用最大最小歸一化的方式為R1,R2…Rm賦予不同的權值:

(6)

式中,wk為Rk的權值,k=1,2,…,m,經過歸一化后相似度較大的參考矩陣分配到的權重較大,且滿足:

(7)

(8)

(9)

式中,RTS為融合參考矩陣,λ=min(M/N,1)為權衡參數,用于調整對齊中使用目標域參考矩陣的比重,當目標域中可用數據越多時使用RT作為融合參考矩陣的比重越大。

7)模型訓練結束后,目標域剩余數據可用時,使用融合參考矩陣RTS對可用數據對齊:

(10)

1.3 基于模型的遷移學習

基于模型的遷移方法假定相關任務的各個模型應該共享一些參數或超參數的先驗分布,并通過共享這些模型參數來提升遷移效率。其思想是預訓練模型已經學習了源域中的有用特征和模式,可以應用于目標域以提高性能。通過使用預訓練模型,目標模型可以獲益于源模型所獲得的相關知識。微調是實現基于模型的遷移學習的一種方法,該方法指在源域上訓練一個預訓練模型,接著繼續在目標域上繼續訓練全部或者部分網絡參數[17]。

DeepConvNet[18]是一個常用于EEG分類的深度神經網絡模型,該模型由5個卷積層組成,其中一個softmax層用于分類,該網絡在P300視覺誘發電位、錯誤相關負波、運動相關皮層電位和感覺運動節律等任務中都有良好表現,本文使用DeepConvNet提取特征分類,并使用微調方式進行模型遷移。

2 實驗與結果分析

2.1 測試環境

本文的研究是在一臺裝有Windows 10操作系統的圖形工作站上完成的,處理器為兩顆lntel(R)Xeon(R) CPU E5-2620 v4 @2.10 GHz,運行內存16 GB,圖形卡為NVIDIA Quadro M2000。采用Python3.6作為編程語言通過Anaconda搭建實驗環境,使用jupyter notebook和Pycharm編寫實驗代碼,機器學習框架是sklearn,深度學習框架是Keras,backend采用TensorFlow。

2.2 測試數據集

本次實驗數據來源江西科技學院信息技術研究所,共25個被試,采樣率為1 000 Hz,通道為30通道,對每個被試分別采集300 s的非疲勞和疲勞EEG數據。實驗中首先要求被試駕駛20 min,取最后5 min的數據標記為非疲勞數據,并通過疲勞調查表驗證被試的非疲勞狀態。然后要求被試連續駕駛30 min后填寫疲勞調查表,如果認定被試處于疲勞狀態則取最后5 min采集的數據作為疲勞數據,否則要求被試繼續駕駛30 min,直至獲取疲勞數據。

2.2.1 數據預處理

對原始數據進行0.01~70 Hz的帶通濾波,進行偽跡去除,基線漂移去除等降噪處理后,提取每個受試者第150~250 s的數據,用1 s的滑動窗口不重疊的方式得到每人每類100個樣本用于后續分析,即每人共200個樣本,其中疲勞樣本和非疲勞樣本各一半,每個樣本尺寸為30*1 000。

2.2.2 數據集劃分

采用留一法依次選擇25個被試的1個被試作為目標域,剩余24個被試作為源域,將選中的目標域數據分別按照一定比例劃分成兩部分,將較小部分目標域數據加入源域數據作為訓練集,剩下的較大部分目標域數據作為測試集,模擬在不同比例目標域數據可用時的情況,比例劃分設定為5%、10%、15%、20%、25%、30%。

2.3 實驗結果與分析

2.3.1 預訓練結果

首先討論目標域可用比例為5%時的情況,將DeepConvNet在訓練集上進行預訓練,打亂訓練集后選取80%數據作為預訓練上訓練集,剩余20%作為預訓練上測試集。使用Adam作為優化器,設定學習率為0.05,動態調整學習率訓練100個epoch,為了體現對齊的效果,分別在原始數據和EA后的數據上進行預訓練,結果如表1所示,所有結果均為留一法試驗后的平均值,下同。

表1 對齊與不對齊時預訓練結果/%Tab.1 Pre-training results when aligned and unaligned/%

表1中可以看出經過對齊后的預訓練效果結果無論在準確率還是F1分數還是精度或是召回率都優于使用原始數據預訓練的效果。

2.3.2 預訓練模型在目標域上的直接測試結果

使用2.3.1中得到的兩個預訓練模型,分別在原始目標域數據、EA后目標域數據、WAEA后目標域數據上直接測試,結果如表2所示。從表2中可以看出,使用對齊數據預訓練的模型比使用原始數據預訓練的模型分類效果更好,其準確率最高提升了4.11%。然而無論是在原始目標域數據上還是對齊后的目標域數據上,直接使用預訓練的模型測試效果都較差,這是由于EEG的個體特異性導致的。為此我們使用模型遷移學習中微調的方式提高模型的跨被試疲勞駕駛EEG識別準確率。

表2 不同預訓練模型在不同處理的目標域上的準確率(單位:%)Tab.2 Accuracy of different pre-trained models on different processed target domains(unit:%)

2.3.3 預訓練模型的微調結果

使用目標域中5%的數據,對DeepConvNet進行微調,微調層次為所有隱藏層,使用Adam作為優化器,設定學習率為0.001,動態調整學習率訓練50個epoch。在目標域數據、EA后目標域數據、WAEA后目標域數據上分別微調,結果如表3所示。

可以看到經過微調后各個模型準確率均有了較大提升,其中表現最好的組合是在對齊數據上預訓練,WAEA目標域數據集上微調后測試。同時我們發現訓練集和測試集都對齊或都對齊得到的效果更好。

表3 不同預訓練模型在不同處理目標域上的微調后準確率/%Tab.3 Accuracy of different pre-trained models after fine-tuning on different processing target domains/%

2.3.4 不同目標域可用比例下的微調結果

按照5%、10%、15%、20%、25%、30%的比例劃分目標域,對訓練集和測試集用不同的處理,重復預訓練后微調的步驟,以目標域劃分比例為α、平均準確率為accuracy繪制折線圖,如圖1所示。

圖1中initial-initial表示在原始數據上預訓練并在原始數據上微調的組合,類似的initial-EA表示在原始數據上預訓練并在EA后的數據上微調的組合,以此類推。由圖1可知,表現最好的組合依舊是EA-WAEA,在5%~30%的目標域可用比例中都保持對其他方法的領先。并且我們注意到EA-EA的結果隨著目標域數據可用比例的提高,越來越接近EA-WAEA的結果,這是由WAEA的計算公式決定的,由式(9)可知當目標域比例越來越大時,WAEA會與EA相似,但是WAEA在目標域可用比例較小時比EA有較大領先,這是由于少量數據不足以計算出可靠的參考矩陣,WAEA利用源域中數據一定程度上解決這這個問題。另外我們發現,與表3類似的,使用對齊后的數據微調結果比不對齊的結果都要好。

α/%

3 結束語

本文結合歐式空間對齊方法和模型遷移學習對EEG疲勞駕駛信號進行跨被試少樣本分類。首先對源域中被試進行EA并對目標域中被試使用WAEA以減少被試之間差異,用對齊后的源域數據和少量目標域數據對DeepConvNet進行預訓練,并在WAEA后的少量目標域數據上微調。實驗證明WAEA通過引入源域中參考矩陣,并利用矩陣的余弦相似度計算加權平均參考矩陣,能夠彌補EA在樣本較少時準確率較低的問題,同時我們發現對齊后的微調效果比使用原始數據的微調效果更好。該方法為遷移學習在EEG疲勞駕駛信號跨被試分析中提供了新方法,為有少量目標域時的對齊提供了一種新思路,并說明了對齊在遷移學習中的必要性。

猜你喜歡
微調源域準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
基于參數字典的多源域自適應學習算法
高速公路車牌識別標識站準確率驗證法
一種新型微調擠塑模具的設計及應用
靈活易用,結合自動和手動微調達到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
可遷移測度準則下的協變量偏移修正多源集成方法
全國大部省份結束2014高考 多地高考模式微調
宏觀政策適時適度進行預調微調
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合