?

基于眼動信號的感興趣檢測方法研究*

2024-03-23 07:30王新志張華宇宋愛國
傳感器與微系統 2024年3期
關鍵詞:眼動殘差尺度

王新志,曾 洪,張華宇,宋愛國

(東南大學儀器科學與工程學院,江蘇 南京 210096)

0 引 言

如今,基于機器智能的目標檢測技術飛速發展,并在人臉識別、遙感圖像識別等領域取得廣泛應用。然而,對于目標遮擋或部分缺失等難例樣本,機器智能難以有效檢測,使用輸入設備,如鍵盤、鼠標等為機器智能提供人工標注難例樣本是常見的解決方案,但是存在標注效率較低的問題[1,2]。

眼動信號是人眼球注視位置隨時間變化的時間序列數據,其中的注視事件能夠分析人的相關認知信息。通過分析被試執行標注任務的眼動信號可以自然地實現難例樣本標注,已在實踐中探索出許多應用[3,4],但現有研究多基于提取眼動信號特征、使用淺層模型分類的方法。受到深度學習取得廣泛應用的啟發,有學者提出InceptionTime 網絡[5],卷積長短期記憶(convolutional long short-term memory,ConvLSTM)網絡[6],LSTM-全卷積網絡(fully convolutional network,FCN)[7]等用于時間序列分類的深度網絡。深度學習方法具有無需特征工程、支持端到端訓練等優勢,但以上研究中未充分提取注視序列的不同尺度特征,未考慮各卷積通道的重要性關系。因此,研究多尺度特征和卷積通道權重分配對注視序列分類的影響很有意義。

本文提出一種基于眼動信號的感興趣檢測深度學習方法,旨在提高感興趣檢測精度,應用于難例樣本標注場景中。本文的創新點在于:一方面,使用眼動儀無接觸采集被試瀏覽圖像的眼動信號,并通過自適應閾值算法提取出注視序列;另一方面,設計多尺度卷積殘差模塊學習注視序列不同尺度特征,并結合特征通道權重重分配模塊為不同卷積通道分配權重,提升感興趣檢測的精度和魯棒性。

1 感興趣檢測方法的總體設計

感興趣檢測方法的總體設計(圖1)先通過眼動儀采集被試瀏覽圖像的眼動信號;其次,通過自適應閾值算法提取出注視序列,注視序列是信息加工的主要過程,也即當前感興趣區域(region of interest,ROI);最后,通過多尺度殘差網絡對目標ROI和非目標ROI識別,提高感興趣檢測精度。

圖1 感興趣檢測方法的總體設計

1.1 注視序列提取算法

人的眼球運動能夠反映大腦內部信息的加工過程,根據眼動速度可分為3 種基本眼動事件:注視(fixation)、掃視(saccade)和追隨運動(pursuit movement)。注視眼動是眼睛在目標物體上的停留,是進行信息加工的主要過程,也即當前ROI[8]。眼動儀以高時空分辨率精確地記錄眼睛注視位置以及運動軌跡,為研究視覺信息加工過程提供了有效的數據支持。

在眼動數據分析研究中,區分具體的眼動事件是至關重要的步驟。常用的眼動事件檢測是根據經驗設置眼動速度閾值,根據閾值區分不同的眼動事件[9,10],但是由于個體差異,具體閾值的設置會對事件檢測結果產生影響。鑒于此,本文使用自適應閾值算法實現眼動事件檢測,該算法主要包含預處理和眼動事件檢測。

首先,眼動信號預處理,目的是去除噪聲和獲取眼動速度序列。采用尖峰濾波器濾除異常尖峰,之后通過中值濾波和Savitzky-Golay濾波對數據平滑處理。最后按式(1)和式(2)分別計算出眼動角速度v和眼動角加速度a

式中t為2個注視點之間的時間間隔;x0,y0為第1 個注視點的像素坐標;xt,yt為第2個注視點的像素坐標;d為被試物與顯示器的距離。

其次,眼動事件檢測。計算掃視速度閾值,初始速度閾值為PT1(初始值范圍100 ~300°/s)[8],逐步計算n-1 范圍內眼動角速度的中值和方差更新掃視速度閾值,更新公式如式(3)所示

式中 median 為中值;F為絕對中位差(median absolute deviation,MAD)縮放因子;vn-1為前n-1 個眼動角速度序列。

不斷更新掃視速度閾值,直到其穩定在一定范圍內,停止條件如式(4)所示

在獲得掃視速度閾值后,將眼動角速度序列按照該閾值分塊,將大于追隨速度閾值的樣本標注為追隨事件,其余樣本歸類為注視事件。保存所有注視序列,作為感興趣檢測樣本數據。

1.2 多尺度殘差網絡模型

注視序列是一種隨時間變換的時間序列,感興趣檢測是判斷某個注視序列是否為目標注視序列,即注視目標的認知過程,非目標注視序列是由圖片中干擾信息產生[11]。針對目前模型缺乏多尺度特征和各卷積通道重要性的研究,本文提出一種基于特征通道權重重分配的多尺度殘差網絡Res_Fix(如圖2),不但通過多尺度卷積捕獲不同時間尺度的眼動信號特征,而且通過特征通道權重重分配模塊分配各卷積特征通道的權重。網絡模型包括卷積濾波模塊、特征學習模塊和分類輸出模塊3 部分。卷積濾波模塊主要功能是增強眼動信號信噪比,特征提取模塊通過多尺度卷積和卷積特征通道權重重分配實現,最后使用全連接(fully connected,FC)層和SoftMax函數實現分類,以下內容將主要介紹多尺度卷積和卷積特征通道權重重分配的具體實現方法。

圖2 Res_Fix網絡結構

一個健壯的時間序列分類算法應該能夠捕獲不同時間尺度的序列數據,因為長期特征反映總體趨勢,短期特征反映局部區域的細節變化。本文提出一種新的神經網絡構建塊ResTnet,通過在單個殘差塊內構建分層類殘差連接,增加了每層網絡感受野(receptive field)的多樣性,從而更好地獲得時間序列的多尺度特征。ResTnet 將多個一維卷積組通過殘差連接,增加了每層網絡感受野的多樣性,其內部結構如圖3(右)所示,圖3(左)表示殘差網絡的瓶頸(Bottleneck)模塊結構。ResTnet采用一維卷積核處理時間序列,將不同卷積組之間以類似分層殘差的方式連接起來,最后將卷積輸出特征塊按通道拼接。這種特征先拆分后融合的方案,使得單個殘差塊內融合多尺度特征。

圖3 Bottleneck模塊(左)和ResTnet模塊結構(右)

SE 模塊的內部結構如圖4 右圖所示[12],包括“壓縮”(squeeze)操作、“激勵”(exciation)操作和“縮放”(scale)操作。首先,通過全局平均池化(Global pooling)實現二維張量的壓縮整合;其次,使用2個含激活函數且無偏置的FC層實現不同卷積通道特征重要性權重學習,r為控制FC層通道數的超參數;最后,將學習的權值與原特征映射進行逐通道的自適應加權,實現卷積特征通道權重重分配。

圖4 嵌入SE模塊的ResTnet結構(左)和SE模塊內部結構(右)

2 實驗平臺與方案

2.1 實驗平臺

本文使用實驗室現有設備搭建感興趣檢測實驗平臺,主要使用Tobii Eye Tracker 4C眼動儀、戴爾臺式計算機和戴爾1 920 ×1 080 LCD 顯示器等硬件設備,圖5 為本文的實驗現場。視覺刺激程序和分類算法在Spyder 編譯器下通過Python編程實現,所有深層網絡模型均通過調用開源深度學習框架Keras實現,交叉驗證、模型評估和淺層模型通過調用開源機器學習框架Scikit-learn實現。

圖5 實驗現場

本文實驗所使用的圖像是從圖像公開數據集RSOD[13]、UCAS_AOD 中篩選出的,共包含198 張實驗圖像,圖像中1 ~3架飛機作為待搜索對象,為了緩解被試疲勞,單個被試實驗分為4 組。本文使用自由搜索視覺(free view)刺激范式采集被試搜索飛機目標過程中的眼動信號,實驗流程如圖6所示。實驗前先校正眼動儀,并顯示提示語,1 s后開始實驗;然后,被試者自由搜索圖片中的飛機目標,眼動儀記錄搜索過程中的眼動信號,搜索完顯示1 s灰色背景;最后,每搜索10 張圖片休息1 min,直到完成一組實驗,休息5 min后進行下一組實驗。

圖6 自由搜索視覺刺激范式流程

按照此實驗范式,本文共采集8 位健康被試者的眼動數據,其中包括2名女性,6 名男性,年齡范圍在23 ~26 歲之間。所有被試者實驗前精神狀態良好,均熟悉了自由搜索視覺刺激實驗流程。

2.2 實驗方案

本文感興趣檢測實驗的具體方案為,首先,采用自適應閾值算法從自由搜索視覺范式采集的眼動數據中提取注視序列,所有被試共提取到4 300 個有效的待檢測注視序列;其次,采用本文提出的基于特征通道權重重分配多尺度殘差網絡對注視序列分類實現感興趣檢測,主要目的是對眼動數據中由“飛機”目標(target)誘發的注視序列與其他非目標(nontarget)注視序列進行分類。設計對比驗證實驗,將基于傳統淺層機器學習模型的方法支持向量機(support vector machine,SVM)和K 近鄰(K-nearest neighbor,KNN),以及文獻[5,6]提出的基于深層模型方法InceptionTime、ConvLSTM為基線(baseline),模型的特征、參數設置參考原文中的設置,在注視序列分類實驗中與本文所提方法的結果進行對比。網絡訓練采用Adam優化器和交叉熵損失函數,在對模型分類結果進行評估時,使用準確率(accuracy)作為評價指標。

3 實驗結果與分析

3.1 網絡模型超參數選擇

本文對Res_Fix 中降維超參數r(圖4)的數值選取進行調試,結果如表1所示??芍?,降維超參數使FC 層有不同的神經元,對分類結果和參數量略有影響,當r=4 時新增訓練參數量較少且分類準確率較高。因此,以下實驗中Res_Fix降維超參數均設置為4。

表1 Res_Fix中超參數r調試結果

3.2 注視序列分類結果分析

本文使用共計5種方法對注視序列數據進行了分類實驗,實驗結果如圖7 所示。為了比較各方法間是否具有顯著性差異(統計顯著性閾值選取為0.05),首先對所有方法的分類結果進行單因素方差檢驗,然后對各方法進行多重比較檢驗。實驗結果表明,相比于KNN、SVM、文獻[5,6]中深層模型,本文提出的Res_Fix 模型在注視序列分類上取得最優結果。本文提出多尺度殘差網絡的分類準確率和標準差達到0.960 5 ±0.005 1,一方面,說明本文提出的多尺度殘差網絡充分提取了注視序列特征、SE模塊能合理分配各卷積通道的權重;另一方面,深層模型分類結果的標準層較低,說明其對被試者的個體差異性具有更好的魯棒性。才會在注視序列分類任務上具有較好的準確率和魯棒性。

圖7 各方法注視序列分類結果

統計顯著性檢驗結果表明,本文各方法的分類結果單因素方差檢驗中,P值遠小于0.01,因此各方法分類結果之間存在統計顯著性差異。首先,文獻[5,6]以及本文的基于深層模型的方法(ConvLSTM,InceptionTime,Res_Fix)相比于基于淺層模型的方法(SVM、KNN)在注視序列分類任務上存在顯著性差異。本文提出模型與現有注視序列分類方法均存在顯著性差異,說明基于特征通道權重重分配多尺度殘差網絡能夠自動的學習注視序列中的特征信息并對其進行分類,該模型通過提取多尺度特征和特征通道權重重分配提高了刻意注視序列的預測準確率。

4 結 論

為解決機器視覺中難例樣本標注問題,本文引入視線追蹤技術,通過檢測目標誘發的感興趣注視序列來實現難例樣本標注。該方案創新性在于,采用自適應閾值算法提取出注視序列;使用多尺度殘差網絡模型提取注視序列不同尺度特征、為不同卷積通道分配權重。對比實驗結果表明,本文提出的基于特征通道權重重分配多尺度殘差網絡的感興趣檢測方法,在注視序列分類準確率和魯棒性上優于對比模型,達到了96%的檢測準確率且提升效果具有統計差異。

本文研究的基于眼動信號的感興趣檢測方法可準確分類注視序列,方便在難例樣本標注應用中使用。在未來工作中,將考慮融合多種自主神經信號(如腦電信號)實現感興趣檢測,進一步提升感興趣檢測的精度和魯棒性。

猜你喜歡
眼動殘差尺度
基于雙向GRU與殘差擬合的車輛跟馳建模
基于眼動的駕駛員危險認知
基于ssVEP與眼動追蹤的混合型并行腦機接口研究
基于殘差學習的自適應無人機目標跟蹤算法
財產的五大尺度和五重應對
基于遞歸殘差網絡的圖像超分辨率重建
宇宙的尺度
國外翻譯過程實證研究中的眼動跟蹤方法述評
平穩自相關過程的殘差累積和控制圖
眼動技術在數字媒體中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合