?

改進圖卷積神經網絡的目標跟蹤算法在體育運動場景中的應用

2024-01-25 12:51呂增輝張一三
喀什大學學報 2023年6期
關鍵詞:鄰接矩陣互信息姿態

呂增輝,張一三

(1 安徽醫科大學人文醫學學院,安徽合肥 230001;2 合肥鑫晟光電科技有限公司,安徽 合肥 230000)

0 引言

視覺目標跟蹤是計算機視覺領域的重要研究方向之一,目標跟蹤可有效解決視頻監控追蹤、人機交互、無人駕駛、體育競技裁判等問題[1].經過長期研究,目標跟蹤取得了較大的技術成果與應用成效,但對于客觀環境產生的遮擋、尺度變化、快速運動等意外因素仍存在一定的跟蹤技術難題[2].在跟蹤算法高頻應用的卷積神經網絡(Convolutional Neural Networks,CNN)基礎上延伸出圖卷積神經網絡(Graph Convolutional Networks,GCN),對于解決復雜圖結構數據,具有良好的應用效果.圖卷積神經網絡可將CNN 和圖譜理論結合,是支持在非歐空間對圖數據進行編碼和預測的深度學習算法,解決CNN 在卷積運算時未考慮通道間內在聯系的問題[3].據此,本次研究提出了一種基于圖卷積神經網絡的體育運動目標跟蹤算法:

(1)采用圖卷積神經網絡搭建一個端對端的深度學習模型,直接從原始體育運動圖像中提取對運動姿態有表達力的特征,并預測運動目標的下一次動作姿態,實現目標跟蹤.

(2)基于互信息改進圖卷積神經網絡的鄰接矩陣,利用變量間互信息值確定變量連接關系,保障信息相關性強的變量之間相互連接.

(3)對于運動搜索區域的選擇,結合目標運動速度估計,設計自適應調整搜索區域的跟蹤策略.

1 基于改進圖卷積神經網絡的體育運動場景中目標跟蹤方法

1.1 圖卷積神經網絡基本結構

本文采用圖卷積操作中的譜圖卷積,其原理是譜圖卷積將卷積核和圖數據都作傅里葉變換轉換到頻域后再相乘[4],計算公式如下:

其中,卷積核、圖卷積運算符分別用bα和a°表示;對運動目標幀圖像數據上的隨機節點的輸入信號x作傅里葉變換,得到頻域信號用UTx表示;映射至頻域的卷積核用Ubα表示.正則化后的拉普拉斯矩陣為W,W的特征向量構成U,矩陣W的表達式如下:

式中,IN表示單位陣;邊權重構成的鄰接矩陣用F表示;D表示一個角陣,僅對角線上存在非零元素,F中對應列的和即為D的數值;W特征值構成對角陣Λ.

圖卷積神經網絡模型基于切比雪夫多項式近似原本卷積核,以減少運算的時間,方法如下式所示:

式中,切比雪夫多項式階數為R;矩陣W的特征值上限為ηmax,=2W/ηmax-IN,表示經過縮放與正則化處理后的拉普拉斯矩陣W,其目的是削弱深度學習中高頻出現的梯度消失和爆炸問題.

以切比雪夫卷積核為前提,實現從單節點一維特征向量x推廣至多節點二維特征矩陣X的目的,確定ηmax取值為2,對譜圖卷積操作進一步簡化,運算式如下:

式中,一次譜圖卷積后各節點的抽象特征向量組成的矩陣Xˊ;卷積核內第r階待學習參數矩陣用Θ(r)描述;基于X的第λ階矩陣用Zr(X)表示.假設第w層的特征向量矩陣為G(w),那么圖卷積神經網絡模型的卷積層計算公式如下:

式中,w層的第r階權重矩陣為,若w取值是0則存在輸入層G(0)=X.

1.2 基于改進圖卷積神經網絡的運動目標姿態預測

1.2.1 基于互信息的鄰接矩陣構建

圖構建是圖卷積神經網絡的核心,加強信息相關性強的變量間的相互連接是圖構建的第一要義.為此參考劉菡等人[5]的研究,將互信息理論應用到鄰接矩陣構建中.由熱力學熵的概念演化獲得信息熵概念,信息論認為消息代表來自分布或數據流中的事件、樣本、特征.信息論將接收消息中包含信息均量視為熵,則有概率分布為p(x)=P(X=x)的隨機變量X,其熵用P(X)表示,表達式如下:

已對任意的變量平均需要的信息量定義為聯合熵,如果(X,Y)是一對離散型隨機變量,同時P(X,Y)表示聯合概率分布,那么H(X,Y)表示其聯合熵,表達式如下:

當X值為已知時,任意變量Y的隨機性的量可稱為條件熵,那么已知隨機變量X和Y的條件熵描述如下式所示:

一個隨機變量中包含的關于另一個隨機變量的信息量稱為“互信息”,結合公式(6)推導得到互信息計算式如下:

本次采用圖卷積神經網絡預測運動姿態時,基于變量間互信息值確定變量連接關系以改進圖卷積神經網絡的鄰接矩陣構建方式.具體而言,節點間邊的構建依據節點間的互信息值的大小而定.首先,選擇影響運動目標姿態發展的變量作為構建圖A(V,E)的節點NV=|V|,NV表示節點數;其次,兩個節點間的相關度用NE=|E|描述;最后,為互信息較大的r個值建立鄰接關系得到鄰接矩陣F,改進后的鄰接矩陣如下式:

1.2.2 基于改進圖卷積神經網絡的運動目標姿態預測模型

基于互信息建立鄰接矩陣,將鄰接矩陣F、特征矩陣X作為圖卷積神經網絡的輸入,特征向量維數用T描述,即選擇一定時間內采樣點數量.利用互信息將特征變量構建成圖數據,建立改進的圖卷積神經網絡預測模型,其結構如圖1 所示.

圖1 基于圖卷積神經網絡的運動目標姿態預測模型

由圖可見模型包括兩個圖卷積層、一個全連接層.為提高模型非線性能力、減少模型過擬合幾率[6,7],為每個譜圖卷積賦予一個Relu 激活函數.圖卷積神經網絡模型預測運動姿態的步驟如下:

(1)第一層圖卷積輸出矩陣成為第二層圖卷積新的節點特征矩陣,通過兩層圖卷積網絡對特征信息實施融合,即每個節點特征與其鄰接的節點特征融合.(2)在Flatten 層中實現特征維度變換,兩次圖卷積完成后在Flatten 層中多個節點特征矩陣將轉換為一維向量[8].(3)節點特征與鄰接節點特征融合后將作為全連接層的輸入,抽象特征映射至樣本標記空間的任務也在全連接層中完成;Softmax 激活函數得到該樣本屬于每個標簽的概率,反向傳播時參數更新依據交叉熵損失函數進行判定[9].(4)融合特征輸入全連接層后得到體育場景中運動目標姿態的預測值[10],實現運動目標的動態跟蹤.

1.3 自適應動態調整搜索區域的目標跟蹤策略

體育場景中運動目標跟蹤過程中,不僅要精準預測運動姿態特征,搜索區域選擇也在很大程度上影響跟蹤精度與效率,本次研究采用自適應動態調整搜索區域的跟蹤策略.

由于搜索區域大小影響跟蹤效果,目標應用頻率較高的一些目標跟蹤算法往往采用固定的搜索區域,即通過對目標尺寸放大一定的倍數獲得搜索區域.這種搜索區域設定策略導致一些異物遮擋、背景干擾、姿態變化等場景中的目標跟蹤不準確,適應復雜條件的能力較弱[11];此外,由于體育場景中的目標運動不均勻,跟蹤視角變化較大,過大的搜索區域包含過多干擾物導致跟蹤漂移,較小的搜索區域無法適應高速運動目標的追蹤.為此,參考王春雷等人[12]的研究采用運動估計動態調整搜索區域的跟蹤策略.將3作為初始搜索區域放大倍數實施目標跟蹤,同時獲取連續5幀的目標中心點位置,求取相鄰兩幀中心點偏差,計算式如下:

式中,(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3)、(xi+4,yi+4)分別表示連續5幀的目標中心點位置.采用如下公式分別求取相對x軸與y軸運動距離上限值:

采用(15)—(18)公式求取的4 個相鄰兩幀運動距離上限值自適應調整搜索區域的放大倍數,根據反復測試結果和相關研究確定運動距離上限與搜索區域放大倍數的關系,具體公式如下:

2 實驗與分析

本文選取體育運動場景中的幀圖像作為測試樣本,進行運動目標跟蹤測試,以驗證本文所提方法的優越性.采用GCN 模型、MI-GCN 模型進行同步跟蹤對比測試,以評估本文方法在運動目標跟蹤方面的優勢與不足.

2.1 鄰接矩陣參數選擇

基于改進圖卷積神經網絡進行目標跟蹤的過程中,圖網絡的節點即為篩選的特征變量,圖卷積神經網絡鄰接關系的需要計算輸入變量之間的互信息.根據公式(10)可知,采用互信息較大的λ個值建立鄰接關系得到鄰接矩陣F,因此,λ的設置可能影響鄰接矩陣的構建,進而影響本文圖卷積神經網絡模型的構建,為此為λ選定3、4、5、6 四個數值,進行鄰接矩陣構建測試,明確λ的選值對鄰接矩陣構建的影響,進而為本文改進圖卷積神經網絡模型構建最佳的鄰接矩陣.圖2為鄰接矩陣構建結果.

圖2 k值變換下的鄰接矩陣

由于節點自身的互信息值最大,結合圖1 可知,將最近鄰的λ個值作為鄰接節點,λ值變化鄰接矩陣呈現的排列方式有所差異.圖2(a)、(b)顯示,選值為3 和4 的情況下,節點鄰接關系為稀疏狀態,相關性節點之間的特征信息融合水平不高;選值為5 和6 的情況下,節點鄰接關系呈現緊密狀態,導致相關性不強的變量間的特征信息過度融合.可見,鄰接關系不會隨著λ值的增加或減少而產生顯著的優化排列效果,所以λ選值對本文改進圖卷積神經網絡模型預測運動目標姿態不產生干擾,不會影響目標跟蹤結果.

最終,基于互信息構建圖網絡的鄰接關系,獲取改進圖卷積神經網絡的鄰接矩陣,用于預測運動目標的姿態.

2.2 跟蹤效果分析

為展現本文方法跟蹤復雜條件體育場景中運動目標的良好效果,在光照變化、姿態變化、物體遮擋的實驗環境下進行目標跟蹤測試,跟蹤結果如圖3 所示.圖中,采用白色虛線框表示真實的目標跟蹤標注結果,黑色實線框表示本文方法預測的目標跟蹤標注結果,兩者重合度較高時,說明本文方法跟蹤效果良好.

圖3 復雜條件下目標跟蹤測試結果

分析圖3(a)可知,當運動目標被物體遮擋的情況下,本文方法仍然可以較好的識別出目標所在區域,精準標注目標,在此過程中本文方法始終穩定跟蹤運動目標.這是因為本文方法提取運動目標姿態特征的表達能力較強,可基于目標的一部分特征實現目標的整體性跟蹤.此外,本文方法采用自適應動態調整搜索區域的跟蹤策略,有效調整搜索區域,即使干擾物一定程度上遮擋目標,本文方法可動態調整搜索區域,立即標注出正確的目標姿態.

圖3(b)中,體育場景的光照發生較大變化,由較為正常的光照條件改變為較暗的光照條件,但是本文方法標注結果與真實的標注結果高度重合,說明本文方法不受光線條件的干擾,可以精準實現目標跟蹤.

圖3(c)中,隨著目標姿態變化,本文方法仍然可以精準跟蹤目標,尚未出現明顯的跟蹤誤差.這是因為本文方法可自適應動態調整搜索區域,當目標偏離搜索區域時自適應調整搜索范圍,沒有因為較大的姿態變化而產生跟蹤誤差.

綜合上述實驗結果可知,本文方法在復雜的體育場景下,具有良好的目標跟蹤能力,自適應動態調整搜索區域的跟蹤策略發揮了較強的作用.

2.3 跟蹤精度測試

為進一步突出本文方法跟蹤的準確度優勢,在籃球比賽場景、體操場比賽場景、排球比賽場景以及乒乓球比賽場景中進行目標跟蹤測試,兩種對比方法展開同條件同步測試.將真實標注框跟蹤結果與本文方法標注框的跟蹤結果對比,計算得到跟蹤精準度,表1為三種方法在體育場景中目標跟蹤精準度的統計結果.

表1 中的數據顯示,隨著樣本數量的增加,本文方法的目標跟蹤精準度沒有降低反而有提升的趨勢,而對比方法的跟蹤精度較低且不穩定,GCN模型直至測試結束時跟蹤精度反而降低,該方法采用傳統的圖卷積神經網絡構建模式,鄰接矩陣的構建與網絡存在較大的不適應性,沒有考慮運動目標特征變量間的關系,導致模型預測能力不足;同時對于跟蹤搜索區域的確定采用了傳統的倍數放大策略,與體育場景視角變化較大的實際情形不相適應,因此最終目標跟蹤精準度不夠理想.本文方法采用互信息設計特征變量間的鄰接關系,構建了高性能的圖卷積神經網絡模型,目標跟蹤的能力較強.

MI-GCN 模型精度雖然呈上升趨勢,但是目標跟蹤的總體精準度與本文方法略有差距,由于MIGCN 模型缺乏有效調整搜索區域策略,令干擾物與目標同時出現在搜索區域中,模型提取到的姿態特征難以將目標與遮擋物區分開來,致使跟蹤誤差較大,突出了本文方法采用的動態調整搜索區域策略的有效性.說明本文方法的搜索策略比固定搜索區域放大倍數的策略性能更勝一籌,不僅可以減少大尺寸目標圖像不必要的冗余操作,而且提升了推理速度.

3 結論

本文基于改進圖卷積神經網絡對體育場景中的運動目標進行跟蹤.首先,對圖卷積神經網絡的鄰接矩陣構建方式進行改進,基于互信息構建鄰接矩陣,采用變量間互信息值確定變量連接關系以改進圖卷積神經網絡的鄰接矩陣構建方式.即節點間的互信息值的大小決定節點間邊的構建,以此精準預測運動目標姿態,實現目標跟蹤.其次,在運動目標區域搜索方面,使用自適應動態調整搜索區域的目標跟蹤策略,將相鄰兩幀運動距離上限值自適應調整搜索區域的放大倍數,比傳統固定放大倍數更容易獲取有效的目標搜索區域.

本文方法取得了理想的目標跟蹤效果,未來關于圖卷積神經網絡在體育場景目標跟蹤中的應用研究,需著眼于網絡速率的提升,保障目標準確跟蹤的同時快速得到跟蹤結果.

猜你喜歡
鄰接矩陣互信息姿態
輪圖的平衡性
攀爬的姿態
全新一代宋的新姿態
跑與走的姿態
基于鄰接矩陣變型的K分網絡社團算法
基于互信息的貝葉斯網絡結構學習
聯合互信息水下目標特征選擇算法
改進的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
Inverse of Adjacency Matrix of a Graph with Matrix Weights
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合