?

基于純自注意力機制的毫米波雷達手勢識別

2024-03-05 10:30張春杰王冠博鄧志安
系統工程與電子技術 2024年3期
關鍵詞:手勢時序雷達

張春杰, 王冠博, 陳 奇, 鄧志安

(1. 哈爾濱工程大學信息與通信工程學院, 黑龍江 哈爾濱 150001;2. 先進船舶通信與信息技術工業和信息化部重點實驗室, 黑龍江 哈爾濱 150001)

0 引 言

60~64 GHz毫米波雷達相比傳統長波段雷達對細微動作的獲取能力更好。雷達工作環境受環境光影響小,不會暴露個人影像信息,與傳統的數據手套、攝像頭相比具有豐富的優勢。近年來,基于毫米波雷達的非接觸式人體動作識別在遠程控制、智慧家居、健康檢測等領域都得到了重點關注。其中,基于毫米波雷達的手勢識別系統在智能互聯設備操控,殘疾人及行動不便者輔助信息傳達等領域擁有十分開闊的應用前景。

目前,有關毫米波雷達對人體姿態,手勢動作識別的算法研究大多是先積累目標回波數據,獲取目標動作每一幀的二維快速傅里葉變換(two-dimensional fast Fourier transform, 2D-FFT)矩陣和基于多重信號分類(multiple signal classification, MUSIC)算法獲得的角度信息,將這兩組數據處理為圖像,通過兩組并行的卷積神經網絡(convolutional neural network, CNN)學習其中隱含的特征信息并將這兩組特征進行特征融合,再把這些圖像數據通過長短時記憶(long short-term memory, LSTM)網絡來獲得時序特征,最后通過一個全連接層進行分類。文獻[1]提出基于CNN的雷達手勢識別方法,通過對目標手勢回波數據在慢時間維和快時間維兩個維度做兩次快速傅里葉變換(fast Fourier transform, FFT),獲得目標手勢的距離-多普勒圖,設計數據集并將數據集輸入CNN進行訓練,對數據集中數據進行分類。文獻[2]提出基于雙流融合網絡的毫米波雷達手勢識別方法,除了獲得目標手勢的距離-多普勒圖外,再通過MUSIC算法估計目標手勢的角度信息,分別通過兩組CNN進行特征提取,再進行特征融合,將融合后的特征通過LSTM學習時序特性,最后通過全連接層輸出分類結果。此種方法,增加了角度維特征作為輸入,提高了分類結果的準確度,但雙圖譜的并行輸入和MUSIC算法增加了網絡模型和預處理算法的復雜度。文獻[3]提出基于多通道調頻連續波(frequency modulated continuous wave, FMCW)的雷達手勢識別方法,通過對目標手勢的雷達回波數據在慢時間、快時間、天線通道3個維度做3次FFT,得到距離-時間、速度-時間、角度-時間3組譜圖,并將3組譜圖按幀編號進行拼接,構建數據集并輸入CNN進行訓練、分類。此種方法的輸入數據維度過大,并沒有直接關聯不同幀之間的時序信息,造成網絡訓練的收斂速度較慢。文獻[4]提出了基于串聯式一維神經網絡的毫米波雷達手勢識別方法,將采集到的目標手勢回波不經任何預處理,直接傳入CNN中獲得特征,將這些學得的特征通過一維Inception v3結構,再將輸出通過LSTM提取時序特征,從而對手勢進行分類識別。此種方法嘗試了用純深度學習的思想解決雷達問題,但只依賴CNN來提取特征會造成整體網絡訓練難度增大,且對數據量也有較大的需求。文獻[5]提出基于雙視角時序特征融合的毫米波雷達手勢識別方法,通過兩個毫米波雷達獲取目標手勢信息,將兩個視角的距離-多普勒圖,角度隨時間變化圖分別通過嵌入注意力機制的時序特征融合神經網絡,獲得最后手勢目標的分類結果。此種方法通過增加傳感器的方法,進一步提升了分類準確率。然而,上述基于LSTM+CNN組合網絡的毫米波雷達手勢識別方法都存在模型復雜問題、收斂速度較慢。在數據集構建部分,數據集中不同種類的手勢之間特征差異比較明顯,對同類手勢的統一性要求過高,測量環境較理想化,而這些與實際應用是不相符的。

人機交互領域中,使用毫米波雷達作為傳感器實現非接觸式的命令傳達或信息交互是十分重要的研究方向之一,此研究方向需要注意保證手勢識別的準確性和及時性。對此,本文提出一種基于純自注意力機制的毫米波雷達手勢識別方法,擁有以下創新點:① 采用特定種類特征(固定數量種類)提取,代替CNN提取目標雷達回波數據的特征,對每一幀雷達回波數據的三維(three-dimensional, 3D)-FFT數據矩陣進行特征提取,通過峰值尋找來獲得目標手勢回波的固定定義特征,相比于利用CNN提取特征,既不需要訓練時間,計算復雜度也大幅下降,且不需要將特征拆分再并行輸入,可實現單網絡分類。② 采用基于純注意力機制的雷達特征變換(radovr feature transformer, RFT)網絡來代替LSTM+CNN組合網絡,RFT網絡可以通過更改位置編碼方式來改變時序關聯的順序,增加了時序的靈活性,并且相比LSTM+CNN的組合網絡,模型的算法復雜度低,在有限的硬件資源下更加利于硬件移植。

1 雷達回波數據處理與特征處理

1.1 雷達回波數據的時序特征提取

毫米波雷達產生的線性FMCW(linear FMCW, LFMCW)信號為

(1)

式中:T為信號時寬;B為信號帶寬。雷達回波為經過延時的線性調頻信號為

(2)

式中:td為信號傳輸時延?;夭ㄐ盘柵c發射信號混頻后:

(3)

(4)

式中:R為目標相距雷達的距離。首先對混頻后的每一幀中頻信號進行模擬數字轉換(analog-to-digital converter, ADC)采樣,按采樣點、線性調頻、接收通道3個維度進行數據重組,組成一個三維矩陣。對這個三維矩陣分別在3個維度上依次做FFT,即3D-FFT。分別獲得目標的距離R,速度v,角度信息θ,如下所示:

(5)

(6)

(7)

式中:fIF為混頻后的中頻頻率;λ為毫米波雷達信號的波長;Δφ為兩個連續線性調頻之間的相位差;TC為兩個線性調頻之間的時間間隔;ω為兩個RX對應的2D-FFT矩陣峰值處的相位差;d為接收天線之間的間距。

通過3D-FFT算法處理后,得到的是一個與輸入維度相同的三維矩陣,根據這個三維矩陣即可得到對應的距離、速度、角度信息。

1.2 噪聲抑制

因為在本文采集手勢回波數據過程中,環境噪聲是不定的,并且存在多個較強的靜目標雜波存在,因此通過動目標顯示(moving target indication, MTI)+恒虛警率(constant false alarm rate, CFAR)的方法來對環境雜波進行抑制。具體為對1D-FFT的結果做MTI,對2D-FFT的結果(已做完MTI)做CFAR。其中,MTI的作用是濾除靜目標的影響[6],在手勢回波采集時,人體和周圍的大雷達反射截面積的靜物是主要的環境噪聲因素,MTI算法的主要思想是利用雜波與動目標的多普勒頻率的差異使得濾波器的頻率響應在直流和脈沖重復頻率的整數倍處具有較深的阻帶,而在其他頻點的抑制較弱,從而通過較深的凹口抑制靜目標和靜物雜波。本文具體采用的是兩脈沖對消器,其中兩脈沖對消器的時域表達式和傳遞函數如下所示:

y(n)=x(n)-x(n-1)

(8)

H(z)=1-z-1

(9)

式中,CFAR的作用是對環境整體噪聲進行估計并濾除[7],其工作原理為首先將輸入的噪聲進行相關處理,得出一個門限,將此門限與輸入的待檢測信號相比,如輸入的待檢測信號超過了這個根據輸入噪聲所得出的門限,則認為有目標,反之,則認為無目標;本文具體采用的具體CFAR種類是單元平均CFAR(cell-averaging-CFAR, CA-CFAR),CA-CFAR的檢測原理圖如圖1所示。

2 手勢識別網絡模型

2.1 網絡輸入

目前,深度學習的應用領域主要是自然語言處理(natural language processing, NLP)[8-11]與計算機視覺(computer vision, CV)[12-15],并且深度學習領域中大部分網絡都是服務這兩個方向[16-19]。在基于毫米波雷達手勢識別方法研究中,因為3D-FFT矩陣在格式上與圖片數據類似,所以絕大部分方法都套用CNN在圖像數據處理方面的方法,即把2D-FFT矩陣轉為能量分布圖再存為圖像格式,用CNN學習這些距離-多普勒圖中的隱含特征。而且因為3D-FFT矩陣的能量分布圖并不能直觀表現出角度信息,所以還需要一組角度-時間圖來表征角度維信息,這樣就造成了必須使用兩組并行的CNN來分別提取信息。然而,雷達數據與圖像數據相比,雷達數據中所需獲得的部分重要特征是已知的,通過這些固定種類的特征即可完成分類,而不需要通過深度學習的方法再抽取特征。在獲得3D-FFT矩陣后,通過峰值搜索即可獲得目標的重要特征信息,這與在獲得3D-FFT矩陣后,處理為兩組圖像數據并通過CNN抽取特征的方法相比,可以大幅降低算法復雜度,并省去此部分特征提取模型的訓練時間。本文特征提取方式與其他文獻提取特征方法差異如表1所示。

表1 不同文獻特征提取差異Table 1 Differences in feature extraction of different documents

續表1Continued Table 1

其中,單層CNN復雜度部分為每秒浮點運算次數(floating point operations per second,FLOPs),M為每個卷積核輸出特征圖的邊長,K為每個卷積核的邊長,Cin為每個卷積核的通道數(輸入通道數,即上一層的輸出通道數),Cout為本卷積層具有的卷積核個數(輸出通道數)。本文選取目標距離、速度、水平角度、豎直角度、水平角度隨速度的變化、豎直角度隨速度的變化這6種特征來表征某一類目標手勢回波,具體如圖2所示。

圖2 某一類手勢特征數據Fig.2 A kind of gesture feature data

對于某一類手勢特征數據,每一列分別表示表征某一類手勢回波的6種特征,其順序如上述特征說明順序一致,每一行表示6種特征中對應一種特征在16幀信號中的具體值。6種特征對應的單位如表2所示。

表2 手勢特征及對應單位Table 2 Gesture feature and corresponding unit

2.2 RFT網絡架構

注意力機制目前已廣泛應用于NLP[20-22]和CV[23-25]領域,本文方法使用的是基于縮放點積的多頭注意力機制,具體結構如圖3所示。

圖3 基于縮放點積注意力機制的多頭注意力機制結構Fig.3 Multi-head attention mechanism structure based on scaled dot-product attention mechanism

帶縮放點積的注意力函數公式如下所示:

(10)

MultiHead(Q,K,V)=Concat(head1,head2,…,headH)WO

(11)

headi=Attention(QWQi,KWKi,VWVi)

(12)

式中:WO為不同頭輸出做拼接后對應的線性層的可學習的權重矩陣;WQ,WK,WV為Q、K、V對應的線性層的可學習權重矩陣。

基于純自注意力機制的手勢識別網絡模型主要根據模型Transformer[26]改進而來,Transformer網絡自提出以來,在NLP領域獲得了極好的效果[27],隨著Vit[28]、Swin Transformer[29]此類針對圖像優化網絡的出現,注意力機制在圖像領域也獲得了極大的成功[30-31]。并且,自注意力層相比于卷積層和循環層有著復雜度低,順序的計算(下一步計算需等待前多少步計算完成)少,信息從一個數據點走到另一個數據點的步長短。具體如表3所示。

表3 不同類型層比較Table 3 Comparison of different types of layers

其中,n為序列長度,d為向量長度,k為卷積核大小。因此,本文基于Transformer原模型,針對毫米波雷達手勢識別任務做了特定的優化,網絡整體架構如圖4所示。

圖4 RFT網絡整體架構Fig.4 RFT network overall architecture

RFT模型首先對特征數據(維度為6×16)按幀編號進行拆分,獲得每一幀的特征數據(維度為6×1,共16組),對這16組特征數據添加一個分類向量用于最后的分類(組成17組6×1特征向量),再給這17組特征向量添加位置編碼(本文使用的是可學習的位置編碼),以關聯不同幀之間的時序信息,再將組合后的這17組向量輸入Transformer網絡的Encoder部分。Transformer的Encoder部分對經過預處理的特征數據(原始數據經過分割,添加分類向量,添加位置編碼)做層歸一化,再經過多頭自注意力機制,再做LayerNorm和多層感知機。以上定義為一個Block,將這個Block堆疊L次,每個Block之間采用殘差連接,最后抽取分類向量,通過一個Dense層進行分類。

3 實驗分析與討論

3.1 實驗設備

本節使用TI公司生產的IWR6843ISK-ODS毫米波雷達開發板與DCA1000數據采集卡,將數據采集卡輸出的bin文件(雷達回波數據)傳輸到PC端進行保存與處理,PC端重要硬件配置包括GTX1650顯卡和4GDDR3內存,其中IWR6843ISK-ODS的收發天線如圖5所示。通過編號RX1和RX2做豎直方向上的角度估計,用RX1和RX4做水平方向的角度估計。本文使用的天線模式為一發四收模式。

圖5 IWR6843ISK-ODS天線圖Fig.5 Antenna diagram of IWR6843ISK-ODS

3.2 數據采集與數據集構建

本文實驗的數據采集環境如圖6所示。

圖6 實驗數據采集環境Fig.6 Experimental data collection environment

手掌與天線距離為30 cm(±8 cm)。另外,考慮到手勢識別系統的真實應用場景,本文實驗中添加了一個靜坐不動的人,后部存在一個正常坐姿的人,以及不定時在后方行走及周圍出現的人作為復雜環境的模擬情況。在此情況下對手勢數據進行采集。毫米波雷達開發板參數設置方面具體參數如表4所示。

表4 雷達參數配置Table 4 Radar parameter configuration

在數據集構建方面,首先通過3D-FFT算法、MTI和CA-CFAR算法,獲得手勢回波的特征數據,具體表征為距離、速度、水平角度、豎直角度、水平角度隨速度的變化,豎直角度隨速度的變化這6類特征數據。將這6類特征數據按行放置,以幀序號按列拼接,獲得某一類手勢的特征-時間數據(幀序號即表征了時序信息),具體如圖2所示。本文實驗一共采集了13組不同的手勢,分別推拉、逆時針旋轉、反z滑動、順時針旋轉、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動,每類手勢數據采集80組作為訓練集,80組作為測試集。具體如圖7所示。

圖7 手勢類別圖Fig.7 Gesture category diagram

在進行同一種手勢采集時,要求所采集的手勢盡可能不統一,如圖8所示。

圖8 同類手勢測量規則(上滑)Fig.8 Same gesture measurement rules(up-slip)

而在進行不同種手勢采集時,若可能與其他種類存在混淆情況(不同類手勢數據存在特征類似的情況),盡可能增加混淆度,如圖9所示。

圖9 不同類手勢測量規則(下滑,左滑,逆時針)Fig.9 Different gesture measurement rules(down/left-slip,anticlockwise)

3.3 網絡訓練與實驗結果分析

本文采用基于純注意力機制的網絡模型RFT作為分類模型。其中,模型的輸入維度為6×16,輸入文件格式為xls;網絡采用6層堆疊Transformer Encoder;訓練批次大小設置為2,學習率設置為動態學習律,初始學習律為0.001,最大學習率為0.01;損失函數為分類交叉熵和利用L2范數計算張量誤差值(優化目標函數正則項,避免因參數過多導致的過擬合)這兩種的混合誤差(相加),衰減權重為0.000 1;優化器采用SGD,共訓練100個epoch。對訓練數據集進行打亂操作。RFT模型的重要參數如表5所示。

表5 RFT模型重要參數(以batch_size=1為例)Table 5 Important parameters of RFT model (taking batch_size=1 as an example)

其中,添加分類向量用于最后的分類而不是根據最后一個向量的輸出進行分類的方法借鑒了Transformer網絡中的操作;使用可學習的一維位置編碼,而不是采用絕對位置編碼,是借鑒了文獻[32]模型的操作。

為了測試不同Block數(即Transformer Encoder的深度)對分類效果的影響,本文做了不同Block數的網絡性能對比實驗,其中訓練部分如圖10和圖11所示。

圖10 不同Block數的訓練準確率Fig.10 Training accuracy of different Blocks

圖11 不同Block數的訓練損失Fig.11 Training loss of different Blocks

可以看出,在較少的Block數可以獲得較好效果,最后在測試集上對不同Block數的模型進行測試,結果如圖12所示。

圖12 不同Block數的測試準確率Fig.12 Test accuracy of different Blocks

根據測試結果,本文RFT模型Blocks最終選用6。通過訓練,本文的RFT模型在100個epoch內即可得到較好的效果,且每個epoch訓練時間僅為41 ms,證明了此模型可以快速收斂,訓練的準確率與損失函數曲線如圖10和圖11中紅色線所示。此外,本文額外采集了13類,每類80組的額外手勢數據作為RFT模型的測試數據,所得預測結果的混淆矩陣如圖13所示。

圖13 預測結果的混淆矩陣Fig.13 Confusion matrix of prediction results

其中,數字0~12分別代表推拉,逆時針旋轉,反z,順時針旋轉,下滑,左滑,右滑,斜向左下滑,斜向左上滑,斜向右下滑,斜向右上滑,上滑,正z這13類手勢。

關于對比實驗部分,本文采用的數據集是提取的特征數據,本文的數據集中每一幀數據維度是6×1,而對應的圖像格式數據集維度是244×244。如果在本文的數據集上采用CNN,會因輸入數據維度過小導致模型收斂效果很差,造成最終的分類準確度較低。因此,若采用本文的方法構建數據集時,RFT網絡與其他文獻中的網絡相比會因數據集維度方面而導致準確率有明顯的差異,不一定完全是因為網絡結構導致,也就無法直接比較模型之間的準確率優劣。所以本文直接根據不同文獻中結論給出不同模型的準確率,如表6所示。

表6 不同文獻的手勢分類準確率Table 6 Accuracy of gesture classification in different literatures

其中,文獻[4]共采集上下按壓、前后推拉、手掌翻轉、手指摩擦、抓握5種手勢,每種手勢采集800組,以其中80%作為訓練集。本文RFT模型共采集推拉、逆時針旋轉、反z滑動、順時針旋轉、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動共13種手勢(且模擬復雜噪聲環境下采集),每類手勢采集80組作為訓練集。為針對因數據集維度差異導致無法直接判別模型優劣的情況,在其他復雜下游任務中(如雷達點云成像分類),可以通過增加特征類別和幀數來增加特征-時間數據集的維度,使其可以適應于CNN,便可以直接比較這兩種模型之間的準確率優劣。

4 結束語

本文提出了一種基于純注意力機制的RFT網絡用于毫米波雷達手勢識別任務。通過固定類別的特征提取方法,與CNN提取特征相比,計算復雜度降低,特征的提取可靠性、可用性、高效性得到提升。通過基于自注意力機制的RFT模型可內部直接關聯時序信息,并直接獲得所有特征輸入。與傳統的采用多組并行CNN提取特征再進行特征融合,通過LSTM抽取時序特征的方法相比,系統的結構更簡潔、算法復雜度更低、收斂速度更快、更容易訓練,且保證了較高的準確率??紤]到RFT模型的高效性和準確性,后續的研究可以將此模型套用到手語識別等復雜分類問題上,且根據Transformer網絡已有的研究,在利用此種結構的網絡進行復雜分類問題時,應保證樣本盡可能多,因此可以考慮使用數據生成網絡對數據進行擴充,以獲得更好的分類效果。

猜你喜歡
手勢時序雷達
有雷達
基于Sentinel-2時序NDVI的麥冬識別研究
挑戰!神秘手勢
雷達
V字手勢的由來
基于FPGA 的時序信號光纖傳輸系統
勝利的手勢
一種毫米波放大器時序直流電源的設計
基于空時二維隨機輻射場的彈載雷達前視成像
現代“千里眼”——雷達
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合