?

基于深度學習的目標跟蹤與行為識別技術

2024-04-28 16:31劉光明李媛
科技創新與應用 2024年12期
關鍵詞:目標跟蹤

劉光明 李媛

基金項目:甘肅省2023年技術創新引導計劃——科技專員專項(23CXGA0048);蘭州資源環境職業技術大學2023年科技研究室課題(無編號)

第一作者簡介:劉光明(1974-),男,碩士,研究員。研究方向為高性能計算。

DOI:10.19981/j.CN23-1581/G3.2024.12.038

摘? 要:隨著人工智能算法模型技術的發展,目標跟蹤和行為識別已經成為計算機視覺領域的重要研究任務。該文介紹Yolo V7和Yolo V8這2個最新的目標跟蹤和行為識別算法。重點介紹基于深度學習的目標跟蹤技術中的目標檢測與特征提取、目標跟蹤與位置預測,以及介紹基于深度學習的行為識別技術中的視頻編碼與特征提取、行為分類與識別。此外,該文以Yolo V7和Yolo V8模型結構為基礎構建目標跟蹤與行為識別的聯合學習。

關鍵詞:目標跟蹤;行為識別;Yolo V7;Yolo V8;聯合學習

中圖分類號:TP183? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)12-0164-04

Abstract: With the development of artificial intelligence algorithm model technology, target tracking and behavior recognition have become important research tasks in the field of computer vision. This paper introduces two latest target tracking and behavior recognition algorithms, Yolo V7 and Yolo V8. This paper focuses on the target detection and feature extraction, target tracking and position prediction in the target tracking technology based on deep learning, and introduces the video coding and feature extraction, behavior classification and recognition in the behavior recognition technology based on deep learning. In addition, this paper constructs a joint learning of target tracking and behavior recognition based on the model structure of Yolo V7 and Yolo V8.

Keywords: target tracking; behavior recognition; Yolo V7; Yolo V8; joint learning

目標跟蹤和行為識別技術可以幫助人們更好地理解和分析視頻數據,為決策提供支持。傳統的目標跟蹤和行為識別方法通?;谑止ぴO計的特征提取和模式識別算法,這些方法往往受到光照變化、遮擋、噪聲等復雜環境因素的影響。

目前,基于機器學習的代表性方法包括卡爾曼濾波器和粒子濾波器等線性濾波器,以及基于區域的方法,如滑動窗口法和輪廓檢測法等。這些方法通常需要手動選擇特征和調整參數,難以適應復雜場景和動態變化。

深度學習在目標檢測和行為識別領域取得了顯著進展。在目標檢測方面,Siamese網絡、CFNet和孿生網絡等方法通過訓練深度神經網絡學習目標的特征表示,進而實現目標的精確定位和跟蹤。其中,R-CNN系列模型,如R-CNN[1]、Fast R-CNN[2],通過改進候選區域生成和特征提取方法,提高了目標檢測的準確性和效率。SSD模型[3]則通過多尺度預測層實現目標檢測,具有高精度和快速的特點。而Yolo系列模型[4-5],特別是Yolo V3[6]、Yolo V4[7]和Yolo V5[8],作為單階段目標檢測算法,在運算速度和檢測精度上均表現出色,特別是Yolo V5在推理速度上被認為目前最強。值得一提的是,曠世科技推出的Yolo V5s-Megvii版本在性能和速度上進一步優化,適用于多種實際應用場景。在行為識別方面,深度神經網絡同樣發揮著重要作用。3D CNN、RNN和LSTM等方法能夠自動學習視頻中的時間依賴關系和行為特征,進而實現精準的行為分類。這些方法為復雜場景下的人體行為分析提供了有力工具。眾多學者在目標跟蹤和行為識別領域作出了杰出貢獻。例如,Stauffer和Grimson教授提出的自適應背景模型為目標檢測與跟蹤提供了新思路。Mori教授和Sung等人在行為識別方面也有深入研究,推動了該領域的發展。

1? 基于深度學習的目標跟蹤技術

基于深度學習的目標跟蹤技術包括特征提取、目標檢測、特征匹配、數據關聯、狀態估計、預測與修正和數據輸出。這些方法的主要目的是將目標物體與跟蹤器進行匹配,以形成可靠的跟蹤軌跡。

再者,多目標跟蹤的難點在于如何有效地處理多個目標之間的相互干擾和遮擋等問題。常用的多目標跟蹤方法包括基于粒子濾波的方法、基于均值漂移的方法、基于CAMShift的方法等。本文考慮以最新的Yolo V7[9]和Yolo V8為例探討基于深度學習的目標跟蹤技術。

1.1? 目標檢測與特征提取

目標檢測和特征提取是非常重要的任務,其為后續的目標識別、分類,以及跟蹤和位置預測等任務提供了基礎。以Yolo V7的目標檢測器為例,Yolo V7 作為一種目標檢測器,屬于一種更快更強的網絡架構,其精度和推理性能比較均衡。特征提取網絡采用了Darknet-53,其可以將輸入圖像轉換為一組固定大小的特征圖。目標檢測是在特征提取的基礎上進行的。在Yolo V7中,目標檢測器通過多尺度特征融合處理后的特征圖解碼為最終的目標檢測結果。此外,解碼器中的3個分支分別負責輸出不同數量的預測結果,這有助于提高目標檢測的效率。因此,在Yolo V7中,目標檢測和特征提取是相互關聯的。通過特征提取網絡提取出豐富的目標信息,這些信息被用于目標檢測任務中,從而實現對目標的準確識別和分類。

而在Yolo V8模型中,目標檢測和特征提取采用了CSPDarknet和Yolo V4-Head結構,特征提取部分采用了CSPDarknet。CSPDarknet將網絡分為2個部分,每個部分都包含多個殘差塊。目標檢測部分采用了Yolo V4-Head結構,其包含了多個卷積層和池化層,用于對特征圖進行處理和壓縮。然后,通過多個卷積層和全連接層,將特征圖轉換為目標檢測結果。此外,Yolo V8還采用了一種基于Anchor-Free的檢測方式。這種方式直接預測目標的中心點和寬高比例,而不是預測Anchor框的位置和大小,Yolo V8還采用了一種高效的特征提取和目標檢測方式,具有更高的檢測精度和更快的檢測速度。

1.2? 目標跟蹤與位置預測

目標跟蹤是指在一系列圖像中識別和跟蹤特定目標的位置和運動信息。位置預測是在給定目標的位置和運動信息的情況下,預測目標未來的位置和運動狀態。這可以通過基于時間序列的模型、基于循環神經網絡的模型、基于深度學習的模型等實現。

在Yolo V7和Yolo V8中,目標跟蹤和位置預測是重要的功能,可以幫助系統實現更準確的目標檢測和識別。在Yolo V7中,目標跟蹤和位置預測采用了多尺度特征融合和解碼器分支的方法。此外,解碼器中的3個分支分別負責輸出不同數量的預測結果,這有助于提高目標檢測的效率。

在Yolo V8中,目標跟蹤和位置預測采用了CSPDarknet和Yolo V4-Head結構。CSPDarknet可以將網絡分為2個部分,每個部分都包含多個殘差塊,這可以有效地減少模型的參數量和計算量,同時提高特征提取的效率。Yolo V4-Head結構則將特征圖轉換為目標檢測結果,其中包括目標的中心點和寬高比例等信息。這些信息可以用于目標跟蹤和位置預測任務中,從而實現對目標的準確識別和分類。

因此,Yolo V7和Yolo V8都采用了高效的目標跟蹤和位置預測方法,這些方法可以幫助系統實現更準確的目標檢測和識別。隨著技術的不斷發展,未來的研究將更加注重提高目標跟蹤和位置預測的準確性和實時性,以及推廣應用這些技術到更多的領域中。

2? 基于深度學習的行為識別技術

基于深度學習的行為識別技術主要分為基于圖像的行為識別和基于視頻的行為識別?;趫D像的行為識別通常利用靜態圖像或幀序列進行分析,而基于視頻的行為識別則利用視頻流數據進行實時分析。

基于圖像的行為識別常用方法包括卷積神經網絡(CNN)和循環神經網絡(RNN)。CNN可以有效地提取圖像中的特征,而RNN則可以處理序列數據,如時間序列或文本序列?;赗NN的方法通常將圖像序列中的幀視為序列中的元素,并對序列進行建模以識別行為。

在基于視頻的行為識別中,常用的方法包括3D卷積神經網絡(3D CNN)[10]和雙流網絡(Two-Stream Network)[11]。雙流網絡將視頻分為前景和背景2個流,分別進行處理和分析,從而可以更準確地識別行為。

除了以上方法,基于深度學習的行為識別技術還涉及許多其他方法,如LSTM、GRU等循環神經網絡方法,以及一些基于強化學習和生成對抗網絡的方法。

2.1? 視頻編碼與特征提取

在Yolo V7和Yolo V8中,視頻編碼和特征提取是重要的技術,可以幫助系統實現更準確的目標檢測和識別。

在Yolo V7中,視頻編碼采用了類似編碼器-解碼器結構,將視頻序列分為多個幀,并對每個幀進行特征提取和目標檢測。這種結構可以有效地減少視頻數據的復雜度,同時提高目標檢測的效率。

在Yolo V8中,特征提取采用了CSPDarknet結構,其可以將網絡分為2個部分,每個部分都包含多個殘差塊。此外,Yolo V8還采用了YOLO V4-Head結構進行目標檢測,其可以將特征圖轉換為目標檢測結果,其中包括目標的中心點和寬高比例等信息。這些信息可以用于目標跟蹤和位置預測任務,從而實現對目標的準確識別和分類。

總的來說,Yolo V7和Yolo V8都采用了高效的視頻編碼和特征提取方法,這些方法可以幫助系統實現更準確的目標檢測和識別。隨著技術的不斷發展,未來的研究將更加注重提高視頻編碼和特征提取的準確性和實時性,以及推廣應用這些技術到更多的領域中。

2.2? 行為分類與識別

在Yolo V7和Yolo V8中,行為分類與識別是基于目標檢測和特征提取的基礎上進行的。

在Yolo V7中,Head結構將用于單標簽分類的Softmax分類器改成多個獨立的用于多標簽分類的Logistic分類器,取消了類別之間的互斥,可以使網絡更加靈活。這種方式可以更好地處理實際場景中一個檢測框可能含有多個物體或者有重疊的類別標簽的情況。

在Yolo V8中,行為分類與識別得到了進一步的發展。其采用了CSPDarknet和Yolo V4-Head結構,提高了特征提取和目標檢測的效率。同時,Yolo V8還支持物體檢測、實例分割、圖像分類等多種任務,并捆綁了多種預訓練模型,可擴展到所有以前的版本。此外,Yolo V8還采用了新的骨干網絡和無錨頭結構,使得模型更加高效和準確。

總的來說,Yolo V7和Yolo V8在行為分類與識別方面都采用了多標簽分類的方式,但Yolo V8在模型結構、功能和應用方面更加豐富和擴展,可以更好地滿足實際應用的需求。

3? 目標跟蹤與行為識別的聯合學習

聯合學習將目標跟蹤和行為識別結合起來通過共享底層特征,同時對目標進行檢測和分類,并利用時序信息進行行為識別。在聯合學習中,采用一些集成學習將目標跟蹤和行為識別結合起來。例如,將目標跟蹤和行為識別看作是一個多任務學習問題,并使用一個共享的底層網絡來提取特征,然后分別使用不同的頂層網絡進行分類?;蛘?,將目標跟蹤和行為識別看作是一個序列問題,并使用循環神經網絡等方法進行建模。

在實現聯合學習時,需要考慮如何將目標跟蹤和行為識別的任務結合起來。這可以通過特征共享、多任務學習、序列建模來實現。特征共享將目標跟蹤和行為識別的特征提取部分共享,以減少計算量和提高特征的利用率。多任務學習將目標跟蹤和行為識別看作是一個多任務學習問題,并使用一個共享的底層網絡來提取特征,然后分別使用不同的頂層網絡進行分類。序列建模將目標跟蹤和行為識別看作是一個序列問題,并使用循環神經網絡等方法進行建模。

在聯合學習中,由于目標跟蹤和行為識別是2個不同的任務,因此數據標注的方式也可能不同。為了實現聯合學習,需要對數據進行統一的標注和處理,以保證模型的訓練和測試的準確性。

在Yolo V7和Yolo V8中,目標跟蹤與行為識別就是看作2個相互關聯的任務進行聯合學習。目標跟蹤通常需要檢測畫面中某個或某幾個特定人員的行為,這時候需要實時跟蹤這個人,并且知曉對應人員的編號。這可以通過目標檢測算法實現,例如Yolo V7算法。然而,僅僅進行目標檢測無法滿足對行為識別的需求,因此需要將目標跟蹤與行為識別結合起來。

在Yolo V7和Yolo V8中,雖然官方并未明確提出聯合學習的概念,但是在實現目標跟蹤和行為識別方面都采用了類似的方法。本文構建了聯合學習框架圖(如圖1所示)。

在聯合學習的框架圖中,將Yolo V7和Yolo V8的實現分為3個主要部分:數據預處理、特征提取、目標跟蹤與行為識別。

數據預處理。這一部分負責對輸入數據進行預處理,包括圖像或視頻幀的裁剪、縮放、歸一化等操作。

特征提取。在這一部分,數據將通過Yolo V7或Yolo V8的特征提取網絡進行特征提取。Yolo V7采用類似編碼器-解碼器結構,將視頻序列分為多個幀,并對每個幀進行特征提取和目標檢測。Yolo V8則采用CSPDarknet結構,將網絡分為2個部分,每個部分都包含多個殘差塊。這些特征提取網絡將輸出特定于目標檢測的特征圖,這些特征圖將用于目標跟蹤和行為識別。

目標跟蹤與行為識別。在這一部分,將利用目標檢測的結果(即檢測框的位置和大?。﹣磉M行目標跟蹤。同時,還將利用檢測框內的目標特征進行行為識別。在Yolo V8中,這些模型更加豐富和擴展,可以支持物體檢測、實例分割、圖像分類等多種任務,并捆綁了多種預訓練模型,可擴展到所有以前的版本。

在聯合學習的框架圖中,看到特征提取和目標跟蹤與行為識別之間的聯系。通過共享底層特征,提高目標跟蹤和行為識別的性能和準確性。此外,還可以通過多任務學習和序列建模等方法將目標跟蹤和行為識別結合起來,以充分利用2個任務的相關性和互補性。

最后,聯合學習框架圖的訓練和測試流程可以采用常規的機器學習流程進行??梢酝ㄟ^定義損失函數來衡量模型的性能,并采用梯度下降等優化算法來更新模型的參數。在測試階段,可以將輸入數據送入模型進行預測,并評估模型的性能和準確性。

4? 結束語

本文主要介紹了Yolo V7和Yolo V8這2個基于深度學習的目標跟蹤和行為識別算法的最新進展。Yolo V7提出了一種新的標簽分配方法——MaxIOU,提高了目標檢測的準確性和穩定性,同時采用了多標簽分類的方法進行行為識別。聯合學習是一種將目標跟蹤和行為識別結合起來的方法,通過充分利用2個任務的相關性和互補性,提高了各自的性能和準確性。本文總結了基于深度學習的目標跟蹤和行為識別技術的發展趨勢和挑戰,未來的研究將更加注重提高模型效率和泛化能力,同時解決實際應用中的問題。

參考文獻:

[1] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:580-587.

[2] GIRSHICK R. Fast R-CNN[C]// In Proceedings of the IEEE International Conference on Computer Vision (ICCV),2015.

[3] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//In Proceedings of the European Conference on Computer Vision (ECCV),2016:21-37.

[4] RREDMON J,DIVVALA S,GIRSHICK R, et al. You only look once:unified, real-time object detection[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:779-788.

[5] REDMON J,FARHADI A. YOLO9000:better, faster, stronger[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:6517-6525.

[6] REDMON J,FARHADI A. YOLOv3: An Incremental Improvement[J].arXiv preprint arXiv,2018:1804.02767.

[7] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: ptimal speed and accuracy of object detection[J].arXiv preprint arXiv,2020:2004.10934.

[8] QIAO S,CHEN L C,YUILLE A. DetectoRS: detecting objects with recursive feature pyramid and switchable atrous convolution[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2021:1008-1017.

[9] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[J].arXiv preprint arXiv,2022:2207.02696.

[10] 李子君,魏振華,韓思明,等.基于3DCNN-BiConvLSTM的莫爾斯碼自動識別算法[J].無線電工程,2023,53(8):1862-1868.

[11] 白雪.基于雙流網絡的人體動作識別[D].鄭州:鄭州大學,2019.

猜你喜歡
目標跟蹤
多視角目標檢測與跟蹤技術的研究與實現
基于改進連續自適應均值漂移的視頻目標跟蹤算法
基于重采樣粒子濾波的目標跟蹤算法研究
空管自動化系統中航跡濾波算法的應用與改進
智能視頻技術在電力系統領域的應用
基于車牌識別的機混車道視頻測速算法
自車速測量中的目標檢測與跟蹤技術
基于SIFT特征和卡爾曼濾波的運動目標跟蹤方法
基于目標跟蹤的群聚行為識別
圖像跟蹤識別技術在煤炭運量視頻管理系統中的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合