?

基于改進AlexNet的紅外圖像行人姿態識別

2024-04-18 09:43趙丹郭姍姍計尚冉謝雨晴方子睿單巍
關鍵詞:深度學習

趙丹 郭姍姍 計尚冉 謝雨晴 方子睿 單巍

【摘? ?要】? ?針對傳統紅外圖像行人姿態識別準確率低下的問題,在經典AlexNet網絡的基礎上,提出一種改進型AlexNet網絡。該網絡設定輸入紅外圖像的尺寸為227×227×3,包含5個卷積層、3個池化層、3個全連接層和1個輸出層。同時,減小卷積核提取更精細的特征,減少節點數防止過擬合,刪除分組和隨機失活神經元操作獲得更快的提取和計算速度。實驗結果表明,與流行的GA-CNN、CNN-SVM、CNN-MLP、CNN-RF算法對比,改進網絡的Mean Precision、Mean Recall 和Mean F1等性能指標均優于對比算法。

【關鍵詞】? ?改進型AlexNet;紅外圖像;姿態識別;深度學習

Human Pose Recognition in Infrared Images Based on Improved AlexNet

Zhao Dan, Guo Shanshan, Ji Shangran, Xie Yuqing, Fang Zirui, Shan Wei*

(Huaibei Normal University, Huaibei 235000, China)

【Abstract】? ? For the problem of low accuracy in pedestrian pose recognition of traditional infrared images, an improved AlexNet network is proposed based on the classic AlexNet network. The network sets the size of the input infrared image to 227 × 227 × 3. It includes 5 convolutional layers, 3 pooling layers, 3 fully connected layers, and 1 output layer. It reduces the number of convolutional kernels to extract finer features, and nodes to prevent overfitting. Meanwhile, it removes grouping and randomly inactivate neurons for faster extraction and computation speed. Experiments show that, compared with popular GA-CNN, CNN-SVM, CNN-MLP, and CNN-RF algorithms, our networks, such as Mean Precision, Mean Recall, and Mean F1 are superior in the performance indicators

【Key words】? ? ?improved AlexNet; infrared image; pose recognition; deep learning

〔中圖分類號〕? TP391? ? ? ? ? ? ? ? ?〔文獻標識碼〕? A ? ? ? ? ? ? ?〔文章編號〕 1674 - 3229(2024)01- 0023 - 06

0? ? ?引言

人體姿態識別(human pose recognition,HPR)在當今智能信息技術領域應用廣泛,主要應用于病人實時健康監測、汽車輔助駕駛、治安防控等方面。早期HPR研究基于可見光采集圖像,可見光圖像具有采集分辨率高、目標細節豐富等特點,但是容易受到光照變化的影響,夜間無法正常工作;而紅外圖像具有抗干擾、不受光照影響等優點,在惡劣環境中能正常成像,因此,近幾年基于計算機機器視覺的紅外圖像HRP成為重點研究領域。紅外圖像HPR主要有基于視頻和基于單幅圖像兩種技術方法?;谝曨l的方法準確率較高,但其網絡復雜,實時性低,對硬件要求較高?;趩畏鶊D像的方法實時性高,對硬件的要求較低,系統魯棒性高,實際應用較廣泛[1]。

目前,紅外圖像的HPR包含傳統特征提取法和深度學習法兩大類。傳統特征提取法通常需要提前設計識別模板,對圖像進行多尺度遍歷搜索提取特征,然后輸入到分類器檢測是否存在人體目標并進行行為判別,因而特征提取模板和分類器的設計對HPR結果影響重大。為了提高準確率,學者們在這方面做了很多研究,例如Nanda等[2]通過人體亮度分布概率提出一種亮度概率提取模板,在不同尺度下對多樣性的人體姿態進行匹配,在低質量環境中證明了該方法可行。邵延華等[3]應用稠密軌跡表達圖像序列特征,設計的提取模板核心特征點在每個尺度空間被追蹤,取得了較好的識別效果。然而傳統方法依賴人工設計提取模板和識別方法,對目標形態的多樣性和隨機性檢測效果不佳,整體準確率低下。

近年來,學者們將研究重點偏向更高效的深度學習領域,利用卷積神經網絡(Convolutional Neural Networks,CNN)提取圖像更深層的特征信息,實現了高識別性能的分類。2016年Lee E J等[4]建立了紅外圖像人類行為數據集,采用輕量化CNN網絡,成功實現了夜間移動拍攝紅外圖像識別行人不安全行為,證明CNN在低質量環境下HPR的高效性。唐明武等[5]將LeNet和ResNet兩種深度學習神經網絡進行識別訓練,識別率達到80%以上,可見基于深度學習的紅外圖像HPR相比傳統特征提取法具有很大優勢。

本文的主要目的是增強神經網絡對人體特征的提取能力,進一步提高紅外圖像HPR的精準率,在CNN的研究基礎上提出了一種改進型AlexNet網絡結構[6],對紅外圖像中的6類人體姿態識別進行了研究。網絡主要通過減小卷積核提取更精細的特征、減少節點數以防止過擬合、刪除分組和隨機失活神經元操作以獲得更快的提取和計算速度。與流行的GA-CNN、CNN-SVM、CNN-MLP、CNN-RF網絡進行實驗對比,本文網絡的Mean Precision、Mean Recall和Mean F1等性能指標均優于其他算法,對紅外圖像HPR具有更優的識別能力。

1? ? ?經典AlexNet網絡結構

經典AlexNet是由Alex Krizhevsky等于2012年提出的,是首個應用于圖像分類的深層卷積神經網絡,它以經典卷積神經網絡LeNet[7]為基礎,是一種更深層次的LeNet網絡。經典AlexNet的具體結構如圖1所示,主要包括13個結構層,其中有1個輸入層Input、5個卷積層Conv、3個池化層Maxpool、 3個全連接層FC和1個輸出層Output。卷積層采用分組操作的方式并行訓練,每個卷積層又包含了卷積核、偏置項、ReLU激活函數和局部響應歸一化等模塊,池化層分別在第1、2、5個卷積層后,全連接層在第三個池化層后,前兩個全連接層使用了dropout隨機失活神經元操作,最終輸出層為Output,使用了Softmax分類函數,將網絡的輸出轉化為概率值,用于預測圖像的類別[8]。輸入層輸入的圖片大小為224×224×3。

Conv1的核大小為11×11,步長為4,輸入層的圖片經過該層的卷積、激活、歸一化等一系列操作之后會輸出96個55×55的特征圖。

Maxpool(1)核大小為3×3,步長為2,Conv1輸出的特征圖經過該層操作之后會輸出96個27×27的特征圖。

Conv2的核大小為5×5,步長為1,Maxpool(1)輸出的特征圖經過該層的相關操作之后會輸出256個27×27的特征圖。

Maxpool(2)核大小為3×3,步長為2,Conv2輸出的特征圖經過該層操作之后會輸出256個13×13的特征圖。

Conv3、Conv4、Conv5的核大小均為3×3,步長均為2,Maxpool(2)輸出的特征圖經過這三層操作之后的輸出均為384個13×13的特征圖。

Maxpool(3)核大小為3×3,步長為2,Conv5輸出的特征圖經過該層操作之后會輸出256個6×6的特征圖。

FC是全連接層,前兩個FC層的神經元節點數為4096個,使用了隨機失活神經元操作,降低節點間的相互依賴性,實現神經網絡的正則化,穩定網絡模型,抑制過擬合。第3個FC層神經元節點數為1000,該層使用激活函數Softmax來計算每個類別的概率值,從而達到分類的目的[9]。最后一層是輸出層,因為經典AlexNet 是一個1000分類的模型,所以該層共有1000個神經元節點。

經典AlexNet由于早期計算機的GPU算力有限,必須采用分組操作的方式并行訓練,加上為了防止過擬合使用了隨機失活神經元操作,訓練速度十分緩慢。本文旨在通過減小卷積核和減少節點數來防止過擬合,刪除分組和隨機失活神經元操作來提高模型的訓練速度和精度。

2? ? ?改進型AlexNet網絡結構

本實驗研究對象為紅外圖像中6類不同的人體姿態,將AlexNet應用到紅外圖像HPR中[10],經過多次實驗結果對比分析,對經典網絡的配置進行更改,以達到最佳的實驗方案,具體如下。

(1)改變網絡輸入圖片的尺寸。經典AlexNet輸入圖像為224×224×3,為了適應紅外圖像人體姿態,將所有圖像大小歸一化為227×227×3。

(2)改變部分卷積核大小。常見的卷積核大小有7×7、5×5和3×3、1×1等,卷積核的大小決定了它在輸入圖片上滑動時涵蓋的感受野大小。人體姿態的分類需要更精細的特征提取,多文獻表明,卷積核的選擇應該遵循小而深的原則[11],只有堆疊很多小的卷積核,才會捕獲更多的細節信息,模型的性能才會提升,然而過小的卷積核也會增加網絡的計算量,容易產生過擬合,所以本實驗適當地減小卷積核以提取更精細的特征。將Conv1層和Conv2層的卷積核分別從11×11縮小到9×9、從5×5縮小到3×3。

(3)刪除隨機失活神經元操作。經典AlexNet使用了隨機失活神經元操作,其主要目的是抑制過擬合。然而加入該操作后,訓練時間明顯增加,因為引入 dropout 之后相當于每次只訓練原先網絡的一個子網絡,為了達到同樣的精度需要訓練的次數就會增多,訓練時間是沒有dropout 網絡的2~3倍。本文通過減小卷積核和減少節點數,抑制了過擬合,可以刪除該操作來提高網絡的訓練速度。

(4)刪除分組操作。經典AlexNet采用分組操作的方式并行訓練。由于當時的單顯卡性能不能滿足精細網絡的基本訓練,卷積操作無法在同一個顯卡中進行處理,只能將功能映射分配給多個獨立顯卡,最后融合成多顯卡進行訓練。但是多顯卡之間在傳輸數據過程中可能存在數據的丟失和錯誤,導致精度下降,而且使用多顯卡訓練,速度也十分緩慢?,F在隨著計算機技術的發展,單顯卡已經能滿足訓練的基本要求,本實驗采用單顯卡進行訓練。

(5)減少全連接層的節點數。全連接層在整個卷積神經網絡中起到一個“分類器”的作用。在訓練過程的每個階段,會隨機選取一部分神經元參與到訓練中。通過實驗發現,在選取的部分中再適當減少神經元的節點個數,不會影響其網絡訓練的準確率,但減少節點個數使網絡參數減少,可降低網絡的計算復雜度,提高網絡的訓練速度,故本實驗將前兩個全連接層的節點數由4096縮小到2048。

(6)本實驗是針對6類人體姿態進行分類識別,將最后一層的輸出分類數由1000改成6。最終,改進后的AlexNet的網絡結構如圖2所示。

3? ? ?實驗結果與分析

3.1? ?數據集預處理

本實驗采用廣泛使用的PUB數據集[12]作為樣本的訓練集和測試集,該數據集的所有樣本均在夜間由車載紅外相機采集,包含1200張訓練圖片和480張測試圖片。如圖3所示,數據集包括6類不同的姿態樣本:Sitting、Running、Standing、Looking-back、Walking、Lying-down。所有圖像均為8位灰度圖像。由于深度卷積神經網絡輸入的是三通道圖像,因此將數據集中的所有圖像復制到其他兩個通道中,以形成一個三通道圖像。針對數據集中圖像高度寬度不統一,將其歸一化為227×227×3,如圖4所示。

3.2? ?參數設置和網絡訓練

由于當前實驗是驗證圖2網絡結構的性能,因此不再使用更復雜的調整技術,但需要對參數進行設置,具體如下。

(1)初始學習率控制網絡模型的訓練進度,若設置為0.1,其訓練速度過快,造成網絡不能收斂,會導致訓練失??;若設置為0.001,其訓練速度過慢,網絡收斂非常緩慢,周期過長,會導致訓練失敗。故本文的初始學習率設置為0.01。

(2)改進型AlexNet的第一個卷積層步長設為4,其余卷積層步長均設置為1,Conv2的填充由2減少到1。

(3)卷積神經網絡處理數據是分批進行的,訓練時將每批處理的樣本個數設置為120??偣灿柧毩?00個時期,根據實驗結果選擇具有最佳性能的網絡模型作為最終模型。

最終改進后的AlexNet每層網絡設置如表1所示。由于樣本數量類別為6,因此Softmax模塊中的參數是長度為6的一維向量。實驗訓練在Windows 10系統上完成,該計算機的配置為:CPU @ 1.60GHz,1.80 GHz,機帶RAM為8GB,實驗編程均在MATLAB R2022b中進行。觀察實驗進程發現,實驗剛開始時,模型訓練準確率緩步上升,損失函數值緩步下降。當迭代約15次后,曲線趨于穩定,此時若繼續進行實驗有可能會出現過擬合現象,故此時停止實驗,進行結果分析。

3.3? ?測試結果對比分析

本實驗采用精確率(Precision,P)、召回率(Recall,R)和F1分數值 (F1-score,F1)共3個通用指標來進行性能評估[13]。令TP、FP、FN分別表示其實際正預測為正、實際負預測為正、實際正預測為負的樣本的數量,則上述指標參數可表示如下:

[P=TPTP+FP]? ? ?(1)

[R=TPTP+FN]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)

[F1=2PRP+R]? (3)

從公式(1)(2)(3)可以看出,精確率主要衡量系統的查準性能,召回率主要衡量系統的查全性能,而F1則是精確率和召回率的綜合評價。改進型AlexNet實驗的準確度和迭代損失如圖5所示,混淆矩陣如圖6所示。

為了更直觀地反映本文算法的識別性能,將本文算法與流行的GA-CNN[14]、CNN-SVM[15]、CNN-MLP[16]、CNN-RF[17]算法進行實驗對比。在表2、表3、表4中,分別給出了5種算法對6類行人姿態的性能指標。表2對各種算法的精確率指標進行了對比,在所有6類人體行為中有5種的最高精確率是由本文算法取得的,而且針對平均精確率而言,本文的算法比排名第2的GA-CNN算法高1.3個百分點。召回率指標由表3給出,由表3可知本文算法在6類人體行為中的5類上達到了最高召回率,平均召回率比排名第2的GA-CNN算法高1.2個百分點。由表2和表3可知,在準確率和召回率上,本文算法在5類行為中都達到了比其余算法更高的精度,只有Walking的精確率和Running的召回率略低。為進一步檢驗算法性能并全面衡量前兩個指標,表4給出了各類算法在不同行為類別上的F1。由表4可知,本文算法在每種類型的行為中都取得了最高的F1,并且平均F1值超出其他算法0.012以上,說明本文算法整體上更加優異,并且相對其他算法具有更好的識別性能。

4? ? ?結論

本文對經典AlexNet網絡進行了改進,減小卷積核,減少節點數,刪除分組和隨機失活神經元操作,根據處理數據特性選取最佳網絡參數。在評估行人行為的數據集PUB上進行測試,結果表明,改進型AlexNet網絡的Mean Precision、Mean Recall 和Mean F1等性能指標均優于傳統方法,具有更好的識別性能。當然,該網絡仍然存在部分不足,例如對Walking和Running精度相對略低,這反映了該網絡對動態行為的姿態識別能力較低,網絡在分類細化上學習能力有限,因此在未來的工作中需要繼續對分類模型進行優化,改進網絡的不足。

[參考文獻]

[1] 周嘯輝,余磊,何茜,等. 基于改進 ResNet-18 的紅外圖像人體行為識別方法研究[J]. 激光與紅外,2021,51(9): 1178-1184.

[2] H Nanda,L Davis. Probabilistic template based pedestrian detection in infrared videos[A].Farrokh Rahimi. Proceedings of the 2002 intelligent vehicle symposium[C]. France: IEEE,2002:15-20.

[3] 邵延華,郭永彩,高潮.基于稠密軌跡特征的紅外人體行為識別[J].光電子·激光,2015,26(4):758-763.

[4] Lee E J,Ko B C,Nam J Y. Recognizing pedestrian′s unsafe behaviors in far-infrared imagery at night[J]. Infrared Physics and Technology,2016,76:261-270.

[5] 唐明武,李果,劉盼龍,等.基于深度學習的紅外圖像人體參數識別研究[J].東北電力大學學報,2022,42(4):18-27.

[6] 徐雄. 采用改進型 AlexNet 的輻射源目標個體識別方法[J].電訊技術,2018,58(6):625-630.

[7] Al-Jawfi? ?R.? Handwriting? Arabic? character? recognition LeNet using neural network[J]. International Arab Journal of Information Technology,2009,6(3): 304-309.

[8] Yuan Z W,Zhang J. Feature extraction and image retrieval based on AlexNet[A]. CM Falco. Proceedings of the eighth international digital image[C].China: IEEE,2016: 65-69.

[9] 黃俊,張娜娜,章惠. 基于優化 LeNet-5 的近紅外圖像中的靜默活體人臉檢測[J]. 紅外技術,2021,43(9): 845-851.

[10] 王文秀,傅雨田,董峰,等. 基于深度卷積神經網絡的紅外船只目標檢測方法[J]. 光學學報,2018,38(7): 160-166.

[11] 李薈,王梅.用于大規模圖像識別的特深卷積網絡[J].計算機系統應用,2021,30(9):330-335.

[12] Lee E J,Ko B C,Nam J Y. Recognizing pedestrian′s unsafe behaviors in far-infrared imagery at night[J]. Infrared Physics and Technology,2016,76: 261-270.

[13] 姜紅,何清,曾曉青,等. 基于隨機森林和卷積神經網絡的 FY- 4A 號衛星沙塵監測研究[J]. 高原氣象,2021,40(3): 680-689.

[14] T N Fatyanosa,M Aritsugi. Effects of the number of hyperparameters on the performance of GA-CNN[A]. Pavanbalaji. Proceedings of international big data computing,applications and technologies[C]. UK:IEEE,2020: 144-153.

[15] Niu X X,Suen C Y. A novel hybrid CNN-SVM classifier for recognizing handwritten digits[J]. Pattern Recognition,2012,45(4): 1318-1325.

[16] Sharifzadeh F,Akbarizadeh G,Seifi Kavian Y. Ship classification in SAR images using a new hybrid CNN-MLP classifier[J]. Journal of the Indian Society of Remote Sensing,2019,47: 551-562.

[17] Cao G,Wang S,Wei B,et al. A hybrid CNN-RF method for electron microscopy images segmentation[J]. Journal of Biomimetics Biomaterials and Tissue Engineering,2013,18(2): 114-116.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合