?

輕量化改進XYZNet的RGB-D特征提取網絡

2024-03-05 02:54于建均劉耕源于乃功龔道雄馮新悅
計算機應用研究 2024年2期
關鍵詞:圖像處理特征提取

于建均 劉耕源 于乃功 龔道雄 馮新悅

收稿日期:2023-06-01;修回日期:2023-08-02? 基金項目:國家自然科學基金資助項目(62076014);北京市教育委員會科技計劃重點資助項目(KZ202010005004)

作者簡介:于建均(1965—),女(通信作者),北京人,副教授,碩導,主要研究方向為智能機器人的仿生自主控制、智能計算與智能優化控制(yujianjun@bjut.edu.cn);劉耕源(1999—),男,江西吉安人,碩士,主要研究方向為圖像處理、位姿估計;于乃功(1966—),男,山東濰坊人,教授,碩導,主要研究方向為計算智能、智能系統;龔道雄(1968—),男,湖南永順人,教授,碩導,主要研究方向為人形機器人、遙操作機器人;馮新悅(1999—),女,河北唐山人,碩士,主要研究方向為圖像處理、機械臂操作.

摘? 要:

針對用于位姿估計的RGB-D特征提取網絡規模過于龐大的問題,提出一種輕量化改進XYZNet的RGB-D特征提取網絡。首先設計一種輕量級子網絡BaseNet以替換XYZNet中的ResNet18,使得網絡規模顯著下降的同時獲得更強大的性能;然后基于深度可分離卷積設計一種多尺度卷積注意力子模塊Rep-MSCA(re-parameterized multi-scale convolutional attention),加強BaseNet提取不同尺度上下文信息的能力,并約束模型的參數量;最后,為了以較小的參數代價提升XYZNet中PointNet的幾何特征提取能力,設計一種殘差多層感知器模塊Rep-ResP(re-parameterized residual multi-layer perceptron)。改進后的網絡浮點計算量與參數量分別降低了60.8%和64.8%,推理速度加快了21.2%,在主流數據集LineMOD與YCB-Video上分別取得了0.5%與0.6%的精度提升。改進后的網絡更適宜在硬件資源緊張的場景下部署。

關鍵詞:圖像處理;位姿估計;RGB-D;特征提??;輕量級

中圖分類號:TP391??? 文獻標志碼:A????? 文章編號:1001-3695(2024)02-045-0616-07doi: 10.19734/j.issn.1001-3695.2023.06.0322

RGB-D feature extraction network based on lightweight improved XYZNet

Yu Jianjun, Liu Gengyuan, Yu Naigong, Gong Daoxiong, Feng Xinyue

(Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China)

Abstract:

According to the problem of the current RGB-D feature extraction network used for pose estimation is too large, this paper proposed a lightweight improved XYZNet RGB-D feature extraction network. Firstly, this paper designed a lightweight sub-network BaseNet to replace ResNet18 in XYZNet, which made the network scale significantly reduced and obtained more powerful performance. Then, this paper proposed a re-parameterized multi-scale convolutional attention (Rep-MSCA) sub-module based on depth separable convolution, which enhanced the ability of BaseNet to extract contextual information of different scales, and constrained the amount of parameters in the model. Finally, in order to improve the geometric feature extraction ability of PointNet in XYZNet with a small parameter cost, this paper designed a re-parameterized residual multi-layer perceptron (Rep-ResP) module. The floating point operations (FLOPs) and parameters of the improved network are 60.8% and 64.8% lower, the inference speed is 21.2% higher, and the accuracy of the mainstream datasets LineMOD and YCB-Video is 0.5% and 0.6% higher. The proposed model is more suitable for deployment in scenarios where hardware resources are tight.

Key words:image processing; pose estimation; RGB-D; feature extraction; lightweight

0? 引言

6D位姿估計是指識別目標物體的三維旋轉姿態與三維空間位置,是機械臂抓取、增強現實以及自動駕駛等應用的重要前提[1]。作為位姿估計算法中的關鍵部分,特征提取網絡捕獲位姿特征的能力往往直接決定了整個位姿估計算法的性能[2]。

特征提取網絡根據所處理數據的類型可分為基于RGB、基于點云與基于RGB-D三種?;赗GB的特征提取網絡主要提取物體的紋理特征等局部信息,包括VGG[3]、GoogLeNet[4]與ResNet[5]等,該類網絡在面對弱紋理物體時往往精度較差?;邳c云的特征提取網絡則提取物體的幾何形狀特征等全局信息,包括PointNet[6]與PointNet++[7]等,該類網絡在處理受遮擋嚴重的物體時難以取得較好的表現?;赗GB-D的特征提取網絡由于能夠捕捉到相較于前兩者更加豐富的特征信息,所以在面對弱紋理與遮擋嚴重的物體時更具魯棒性。

DenseFusion[8]中將處理RGB圖像的卷積神經網絡CNN與處理點云信息的PointNet并行排列,組成能夠同時提取RGB與深度信息的異構特征提取網絡。PVN3D[9]中將CNN與PointNet++[7]并聯形成異構結構,并在結尾設計一個特征融合模塊,根據索引來獲得每個點的融合特征。FFB6D[10]中采用一種全流雙向融合網絡,將融合應用于編碼器與解碼器的每一層。然而,這些網絡為了能同時處理RGB與點云信息兩種不同的數據,往往構建了復雜的并行異構網絡。這種設計雖然能夠取得較高的精度,但也造成了龐大的模型計算量與參數量。對于算力與存儲資源較為緊張的工業設備而言,這樣的缺陷一定程度上降低了其算法的實用性。ES6D[2]將點云信息以XYZ map的形式與RGB圖像進行前向融合,并輸入到由改進后的ResNet與PointNet串聯而成的純卷積特征提取網絡XYZNet。盡管該算法采用更高效的串聯方法,從而避免了并行網絡的復雜性,但其參數量與計算量仍然有優化的空間。因此,迫切需要一種輕量級的RGB-D特征提取網絡。

為了解決上述問題,本文從降低模型參數量與計算量的角度出發,提出一種輕量化改進XYZNet的RGB-D特征提取網絡。首先設計了輕量級子網絡BaseNet,在顯著降低模型規模的同時,構建了包含豐富形狀與語義信息的表征;然后基于深度可分離卷積設計一種可重參數化的多尺度卷積注意力子模塊,以加強BaseNet提取多尺度上下文的能力;最后提出一種可重參數化的殘差多層感知器模塊,并加入到XYZNet的PointNet中,以極小的參數代價加強其提取幾何特征的能力。實驗結果表明,該網絡在具有低運算成本的同時,保持了較高的估計精度,為硬件資源受限的工業設備進行位姿估計提供了新的解決方案。

1? 相關工作

1.1? 大尺寸卷積核

近年來,大尺寸卷積核開始被廣泛應用于CNN中。研究表明,相較于3×3卷積核而言,大尺寸卷積核對形狀特征的提取能力更加優秀,并且能獲取更大的感受野[11]。例如ConvNeXt[12]將7×7的卷積核轉換為深度可分離卷積的形式,并添加到CNN中,在獲得比肩基于視覺Transformer[13]架構性能的同時,又緩解了大尺寸卷積核所帶來的參數量增長。visual attention network [14]通過將21×21的卷積核分解成深度卷積、深度擴張卷積與逐點卷積的方式,建立了一種捕獲長距離依賴的注意力機制。SLaK[15]則將兩個條形卷積核進行并聯,從而等效成一個51×51的超大尺寸卷積核,同樣取得了較高的精度。然而,由于以上算法僅采用了單一尺寸的大卷積核,忽略了對多尺度上下文信息的提取與融合,而這在視覺算法中十分重要[16]。

1.2? 結構重參數化

重參數化是指利用卷積核的線性可加性等概念,將訓練完畢后較為復雜的網絡結構等價轉換為另一組更簡潔的結構,從而在保證檢測精度不變的條件下降低網絡推理時的運算代價[17]。Arora等人[18]通過研究證明,隨著網絡深度的不斷增加,重參數化可加速全連接層的訓練。DiracNet[19]利用重參數化技術訓練一個普通的卷積神經網絡,其性能與殘差網絡ResNet相當。RepVGG[20]將由3×3卷積核、1×1卷積核與恒等映射組成的多分支結構重參數化為僅有3×3卷積核的直筒型結構,從而實現了一種兼顧低計算成本、高速度與高精度的骨干網絡。但是,目前主流的重參數化結構僅針對處理RGB圖像等單模態信息,缺乏能夠處理RGB-D多模態信息的重參數化結構。

2? 改進的輕量級特征提取網絡

2.1? XYZNet的基本結構

XYZNet的框架如圖1所示[2],該網絡主要由改進的ResNet18[5]與PointNet兩部分構成。其中,ResNet18用于學習局部特征,通過不同的卷積核與下采樣率來擴大感受野,并在輸出部分將不同感受野的特征串聯;PointNet的主要功能是提取融合了顏色信息的幾何特征,通過將ResNet18輸出的局部特征和由點云信息轉換而成的XYZ-map連接起來,以恢復局部特征的空間結構,并利用1×1的卷積核對局部特征與每個點的坐標進行編碼,最后通過池化操作獲得全局特征[2]。在網絡的最后,將局部特征與全局特征拼接起來,作為逐點特征輸出到下游網絡。

盡管該網絡在精度與模型大小之間取得了較好的平衡,但由于ResNet18本身的網絡規模較大,使得XYZNet的參數量與計算量距離輕量級網絡仍有一定的差距。所以,當面對存儲與算力資源緊張的嵌入式平臺等工業設備時,該算法會難以應用。另外,PointNet提取幾何特征的能力較弱,需要對其進行改進,以加強其對幾何信息的學習能力。

2.2? 輕量級子網絡BaseNet

為了降低XYZNet的參數量,本文設計了一種輕量級子網絡BaseNet,替換掉XYZNet中參數龐大的ResNet18,其由基于CSP(cross stage partial)結構改進的多尺寸卷積注意力網絡MSCAN(multi-scale convolutional attention network)與高效層聚合網絡ELAN(efficient layer aggregation networks)兩種輕量級模塊組成,如圖2所示。SegNeXt[16]中的MSCAN模塊在具有良好特征提取能力的同時保持了較低的參數量。為了進一步壓縮MSCAN模塊的參數規模,本文采用CSP結構對MSCAN模塊進行輕量化處理,設計了一種CSP-MSCAN模塊。本文還在該模塊中設計了一個基于深度可分離卷積的多尺度卷積注意力子模塊Rep-MSCA,通過捕獲多尺度上下文信息來提升網絡的性能。另外,本文還引入了輕量級網絡YOLOv7[21]中的ELAN模塊,該模塊在擁有輕量化特點的同時具有良好的特征提取能力。

網絡的深層特征中具有高度抽象的語義信息,但分辨率較低,對位置與形狀的感知能力較差,而淺層特征的分辨率更高,包含更豐富的形狀、細節、位置信息。在對目標物體的空間位置與旋轉姿態進行估計時,形狀與位置信息具有十分關鍵的作用。本文將CSP-MSCAN模塊設置到位于BaseNet子網絡淺層的stage1與stage2上,因為該模塊中的大尺寸卷積核能夠捕獲較大感受野,這有利于模塊學習到更豐富的形狀與位置信息。將ELAN模塊設置到位于BaseNet子網絡深層的stage3與stage4上,以利用其中的小卷積核提取網絡深層中高度抽象的語義信息。在子網絡末端,通過Concat級聯操作使CSP-MSCAN模塊的淺層特征與ELAN模塊的深層特征相互融合,從而構建具有豐富語義信息的特征表示,更有利于對物體位姿的估計[22,23]。

2.2.1? CSP-MSCAN模塊

本文基于CSP結構對MSCAN模塊進行輕量化改進后的CSP-MSCAN如圖3所示。CSP-MSCAN模塊一邊通過包含1×1卷積核、歸一化層BN(batchnorm)與激活層的子模塊CBS(conv batchnorm Silu)進行通道收縮,然后由MSCAN模塊進行多尺度注意力特征計算,接著與另一邊經由通道收縮的輸入數據進行級聯,從而獲取更加豐富的特征信息,最后再由CBS子模塊擴張至原先輸入數據的通道數并對特征進行擬合。這種輕量化改進使MSCAN模塊的通道數下降至原先的一半,從而顯著降低了MSCAN模塊自身的參數量。盡管改進后的CSP-MSCAN模塊增加了3個CBS子模塊,但該參數增量的規模遠小于MSCAN模塊,因此本文的改進仍能明顯壓縮網絡參數量。

在MSCAN模塊中,首先采用1×1卷積核學習輸入通道的線性組合,其次將Rep-MSCA子模塊捕獲到的多尺度上下文信息送入1×1卷積核進行擬合,然后對特征信息進行通道擴張,并利用3×3大小的卷積核進行局部特征的編碼,最后將其降維至原通道數。為了避免網絡退化,MSCAN中增加了兩條殘差連接。另外,本文僅通過堆疊MSCAN模塊中的核心結構Rep-MSCA來加深網絡,從而獲取更深層次的語義信息。與主流算法通過堆疊整個模塊來加深網絡的方法相比[12~16],本文方法避免了網絡參數量成倍數地增長,因而使網絡實現輕量化。

1)基于深度可分離卷積的Rep-MSCA子模塊

由于一個場景中可能有多個不同大小的目標物體需要進行位姿估計,對于體積較小的目標僅需要用小尺寸卷積核所提取到的局部特征便可估計它的位姿;而對于體積較大的目標,就需要利用能捕獲更大感受野的大卷積核所提取到的全局特征來對它進行位姿估計。所以,對于復雜場景下的位姿估計需要多尺寸的卷積核來獲取不同尺度的上下文信息。

作為一種可分解的卷積結構,深度可分離卷積能將標準卷積分解成深度卷積與逐點卷積。在計算時首先通過深度卷積分別對每個輸入特征的通道進行卷積計算,接著利用逐點卷積對深度卷積的輸出進行擬合。

假設輸入與輸出特征通道數為Cin與Cout,特征圖大小均為Df×Df,卷積核尺寸為Dk×Dk,則深度可分離卷積與普通卷積的計算量l1、l2為

l1=Cin(∑ni=1Df×Df×Dkt×Dkt+n×Df×Df×Cout)(1)

l2=Df×Df×Cin×Cout×Dk×Dk(2)

其中:Dkt為第t個卷積核的尺寸;n為卷積核的個數。

深度可分離卷積與普通卷積的計算量之比為

l1l2=Cin(∑ni=1Df×Df×Dkt×Dkt+n×Df×Df×Cout)Df×Df×Cin×Cout×Dk×Dk=

∑ni=1Dkt×DktCout×Dk×Dk+nDk×Dk(3)

本文基于多尺寸的深度可分離卷積設計了一種可重參數化的多尺度卷積注意力子模塊。如圖4所示,本文利用3×3、5×5、7×7與9×9的卷積核進行互相組合,其中小尺寸卷積核對局部特征更敏感,大尺寸卷積核能通過長距離建模捕獲更大的感受野。由式(3)可知,當使用5×5、7×7與9×9的多尺寸深度可分離卷積時,假設輸入輸出通道為64,則計算量僅為一個5×5普通卷積的0.217倍。因此相較于采用單一尺寸的普通卷積,本文的多尺寸深度可分離卷積不僅可以大幅壓縮模型規模,還能使網絡捕獲到多尺度的上下文信息,從而強化模型的特征提取能力[24]。

Rep-MSCA首先使用大小為3的深度卷積來提取局部特征,然后通過由大小為5、7和9的卷積核以及恒等映射所組成的多尺寸深度可分離卷積來提取多尺度上下文,并使用相加操作融合四個分支的特征信息,接著采用大小為1的普通卷積核擬合多尺度信息,最后將其輸出作為多尺度注意力權重,對Rep-MSCA進行重新加權。Rep-MSCA對輸入數據的計算過程如下:

Fout=DWConv3×3(Fin)(4)

Att=Conv1×1[∑i=5,7,9DWConvi×i(Fout)+Fout](5)

Mout=AttFin(6)

其中:Fin為輸入特征;Fout、Att、Mout分別為3×3深度可分離卷積、多尺度深度可分離卷積以及Rep-MSCA子模塊的輸出特征;DWConv分別為3×3、5×5、7×7以及9×9的多尺寸深度可分離卷積;Conv1×1表示大小為1的普通卷積。

2)Rep-MSCA子模塊的結構重參數化

本文通過對Rep-MSCA中的多尺寸深度可分離卷積進行重參數化,可將其多分支結構等價轉換為直筒結構。這種方法通過簡化結構,顯著降低了模型在推理階段的參數量,使得Rep-MSCA更加輕量化。由于只有尺寸相同的卷積才能進行重參數化的融合,所以本文的重參數化分為兩個步驟進行,如圖5所示。

第一步為統一多尺寸卷積大小,即通過Padding填充操作將不同大小的卷積核以及恒等映射轉換成統一尺寸的卷積核。本文將5×5卷積核轉換成Padding為2的9×9卷積核,同理7×7卷積核轉換為Padding為1的9×9卷積核,9×9卷積核則保持尺寸不變。對于恒等映射,將其轉換為左對角線卷積核中心為1,其余位置卷積核均為0的9×9卷積核[20]。

第二步為卷積融合,即通過加法操作將尺寸一致的多個卷積核融合為單一卷積核。本文將四個分支上卷積核的權重ki×i(i=5,7,9)和kidentity與偏差bi×i(i=5,7,9)和bidentity(恒等映射分支的偏差bidentity視為0)分別進行相加操作,并將權重和ksum與偏差和bsum作為9×9等效卷積核的系數。該9×9卷積核即為重參數化后的卷積,其在推理階段等效于原網絡的多分支卷積。第二步的計算過程如下:

ksum=∑3i=0kScale i=k5×5+k7×7+k9×9+kidentity(7)

bsum=∑3i=0bScale i=b5×5+b7×7+b9×9+bidentity(8)

其中:kScale i、bScale i分別為四個分支卷積核的權重與偏差。

2.2.2? ELAN模塊

ELAN的結構如圖6所示。該模塊一邊通過包含1×1卷積核的CBS子模塊M2對輸入數據Fin進行通道收縮為F2;然后由4個包含3×3卷積核的CBS子模塊M3~M6采集局部特征,并采用多個短路連接來輸出不同尺度的信息,包括F2、F3以及F4;接著將多尺度信息與另一邊經由通道收縮的F1進行級聯,并由CBS子模塊M7來擬合多尺度特征,輸出Fout為最終的特征信息[21]。ELAN模塊一方面通過收縮通道數來降低參數量,另一方面通過多個殘差連接提取豐富的特征信息,從而達到良好的性能。

2.3? 基于Rep-ResP模塊的PointNet改進

XYZNet中的PointNet僅由兩層1×1卷積與兩個池化層組合而成,其較淺的網絡層數使得PointNet無法提取更深層次的特征信息,從而限制了網絡性能。不同于主流算法為了提升精度,設計復雜且精細的特征提取模塊[25,26],本文基于Residual Point模塊[27]設計了一種結構簡單的可重參數化殘差多層感知器Rep-ResP模塊,如圖7所示。一方面,該模塊通過加深XYZNet中PointNet的網絡深度以強化其特征提取能力;另一方面,該模塊結構簡單的特性使得其參數量較低,從而保持了整個改進XYZNet的輕量化特點[28]。

2.3.1? Rep-ResP模塊

Rep-ResP由大小為1的卷積核,BN層與激活層依次串行兩次而成。為了解決網絡加深后的梯度消失與網絡退化問題,本文設置了跨層殘差連接[10]。另外,本文在第一個激活層前添加了短路連接,通過連接不同卷積層的特征,將高層次與低層次的特征進行融合,進一步提升了特征信息的豐富度。為了降低推理時的代價,該短路連接可通過重參數化并入卷積所在的分支。

Rep-ResP對輸入信息的計算過程如下:

Fout_1=ReLU{BN2(Fin)+BN1[Conv1(Fin)]}(9)

Fout_2=ReLU{BN3{Conv2[ReLU(Fout_1)]}+Fin}(10)

其中:Fin為輸入信息;BNi(i=1,2,3)為BatchNorm層;Convi(i=1,2)為1×1卷積核;ReLU為非線性激活函數;Fout_1為第一個激活層的輸出;Fout_2為Rep-ResP的輸出。

本文將4個Rep-ResP模塊加入XYZNet中的PointNet,如圖7所示。該網絡將經由 Rep-ResP模塊處理的信息通過1×1卷積核依次進行兩次通道擴張后,使其與自身池化的結果進行級聯后作為PointNet的輸出。

2.3.2? Rep-ResP模塊的結構重參數化

圖8顯示了本文Rep-ResP中短路連接的重參數化過程,共分為三個步驟:

a)將短路連接分支等效為左對角線卷積核為1,其余位置卷積核均為0的1×1卷積核Conv2。

b)分別將BN1與BN2融入卷積核Conv1與Conv2中[19]。

卷積與BN層融合后的等效卷積為

Convf_i(x)=Wf_i(x)+Bf_i=BNi[Convi(x)]=

γi×Wi(x)-μivi+βi=

γi×Wi(x)vi-γi×μivi+βi? ?i=1,2

(11)

其中:Wi(x)為原卷積的權重;μi、vi、γi、βi分別為BN層的平均值、方差、學習率因子與偏差;Wf_i(x)為等效卷積的權重;Bf_i為等效卷積的偏差。通過將γi×Wi(x)vi等效為融合卷積的權重,而-γi×μivi+β等效為融合卷積的偏差,從而完成BN層與卷積的融合。

c)由于兩個分支上的卷積尺寸大小相同,將兩者進行相加操作,合并為單一卷積。

Convsum(x)=∑2i=1Convf_i(x)(12)

所求出的Convsum(x)即為推理階段的卷積。

3? 實驗結果及其分析

3.1? 基準數據集

本文在公開的主流位姿估計數據集LineMOD和YCB-Video上進行實驗。

a)LineMOD數據集:該數據集廣泛應用于6D目標位姿估計的評估中。該數據集包含13個紋理缺乏的物體[29]。本文采用與DenseFusion[8]相同的實驗設置來分割訓練集與測試集,即將每種物體15%的RGB-D圖像劃分為訓練集,其余為測試集。另外,本文不使用任何額外的合成數據。

b)YCB-Video數據集:該數據集共包含21個對象,92個RGB-D視頻,其中每個視頻顯示21個對象的室內場景。本文采用與DenseFusion相同的方式,將80個視頻分為訓練集,并選取剩余的12個視頻中的2 949個關鍵幀作為測試集。同時,本文還使用了DenseFusion發布的80 000張合成圖像作為訓練數據集,以及groud truth分割掩模作為輸入[2,30]。

3.2? 實驗細節

本文采用PyTorch 1.10作為深度學習框架,CUDA版本為11.3,配置為Intel酷睿 i5-12600KF CPU,NVIDIA RTX 3080-12 GB GPU,所有實驗均在同一電腦下進行。本文將RGB圖像與XYZ map均統一調整為128×128的大?。?]。

在LineMOD數據集上,批處理大小設置為8,共訓練100輪。初始學習率設置為1.65×10-4,并采用余弦退火的衰減方式,然后在第90輪時保持6.65×10-6的值不變,直至訓練結束。另外在第一輪時,采用學習率線性預熱策略,將學習率從1.65×10-6線性提升至1.65×10-4。

在YCB-Video數據集上,模型訓練的批處理大小設置為64,共訓練30輪。初始學習率設置為3.3×10-4,并采用余弦退火的衰減方式,然后在第20輪時保持1.65×10-5的值不變,直至訓練結束。另外在第一輪時,將學習率從3.3×10-6線性提升至3.3×10-4。

3.3? 評價指標

本文使用ADD(S)來評估6D位姿估計算法的精度。ADD(S)包含兩個評價指標,分別為ADD與ADD-S。在評價非對稱物體時采用ADD,在評價對稱物體時則采用ADD-S。ADD指標通過計算物體真實位姿(R*,T*)與估計位姿(R,T)兩種狀態下,目標點云間的點對平均距離來衡量兩個位姿的差距[9]。ADD的計算公式如下:

ADD=1m∑x∈O‖(R*x+t)-(Rx+t)‖(13)

其中:x為點云O的每一個點;m為點云中點的個數。然而ADD指標只能應用于具有唯一真值的非對稱物體,當面對存在多個關聯位姿真值的對稱物體時,需要采用ADD-S這種具有對稱不變性的指標來進行度量。ADD-S的計算公式為

ADD-S=1M∑X1∈Omin‖(R*x+t*)-(Rx1+t)‖(14)

為了進行綜合評估,對于LineMOD數據集,本文以ADD(S)小于目標直徑的10%作為判斷正確估計的標準,并統計百分比精度作為算法在LineMOD上的性能指標。對于YCB-Video數據集,本文采用ADD-S與ADD(S)的AUC曲線,即在評估時通過改變距離閾值(0~10 cm)得到精度閾值曲線,并計算其與XY軸所圍成的面積[2]。

3.4? 對比實驗

為了驗證本文提出的RGB-D特征提取網絡的優越性與有效性,以ES6D的6D位姿回歸框架為基礎,用本文網絡替換ES6D原本的特征提取XYZNet,并與原始ES6D以及其他主流算法在LineMOD與YCB-Video數據集上進行對比實驗。

3.4.1? LineMOD數據集實驗結果

圖9為ES6D與本文經過改進后的算法在LineMOD數據集上的可視化結果。LineMOD數據集僅對位于標記板中心位置的物體進行位姿估計,含顏色的點為物體3D模型上的采樣點。算法進行位姿估計并將采樣點投影到圖像上,投影點與目標物體越契合,表明位姿估計越準確[31]。從可視化結果可以看出,本文算法的性能優于ES6D。表1列出了不同算法在LineMOD數據集上的性能對比,其中DenseFusion與PVN3D[9]是目前主流的位姿估計網絡。實驗結果表明,本文算法13種物體的平均精度相比ES6D提高了0.5%。另外,相較于DenseFusion(iterative)與PVN3D等其他主流算法,本文算法的平均精度分別提高了3.7%與2.9%。其中,DenseFusion(iterative)包括了迭代微調的后處理過程,而本文算法未使用任何后處理與微調。這證明了本文提取多尺度上下文信息,并充分捕獲幾何特征信息的方法,能夠提升對弱紋理目標的估計精度。

3.4.2? YCB-Video數據集實驗結果

圖10為ES6D與本文算法在YCB-Video上的可視化結果。YCB-Video對場景中所有目標進行位姿估計,不同顏色的點為每個物體上的采樣點,所框選的目標表示兩種算法結果差異較大的物體。從可視化結果可以看出,本文算法的性能明顯優于ES6D。表2列出了不同算法在YCB-Video數據集上21個物體(對稱物體的名稱被加粗顯示)的ADD-S與ADD(S)指標的AUC值以及其平均值??梢钥闯?,與ES6D相比,本文算法在ADD(S)上的平均精度提高了0.6%,在ADD-S上提高了0.3%。另外,與DenseFusion和PVN3D相比,本文算法在ADD(S)上分別提升了3.5%和0.9%,在ADD-S上分別提升了1.4%和0.9%。這證明了本文提取多尺度上下文信息,并充分捕獲幾何特征信息的方法,能夠提升對受遮擋目標的估計精度。

3.5? 消融實驗

本文通過消融實驗,進一步研究特征提取網絡中每部分所起到的作用。本文對比了三種網絡結構:a)原XYZNet網絡;b)將XYZNet中ResNet18的layer1與layer2替換為原始MSCAN模塊[16];c)將Net_2的原始MSCAN模塊替換為本文的CSP-MSCAN;d)將XYZNet中ResNet18全部替換為BaseNet;e)加入Rep-ResP模塊后的本文最終網絡模型。除了LineMOD與YCB-Video數據集上的ADD(S)指標之外,本文還列出了不同網絡在YCB-Video的推理時間、浮點計算量(FLOPs)與參數量,實驗結果如表3所示。

表3的結果表明:相較于原始MSCAN,本文經過輕量化改進后的CSP-MSCAN可在降低網絡計算量的同時提升網絡的性能;同時,引入的ELAN模塊既可顯著壓縮網絡規模,又能保證網絡精度不出現明顯下降;在向PoinNet添加堆疊的Rep-ResP結構后,估計精度獲得了進一步提升,這表明該結構對提升點云網絡性能有顯著的效果。由于該結構十分簡單,所以網絡的參數量增長較為有限。相較于XYZNet原網絡Net_1,本文最終網絡Net_5的浮點計算量與參數量分別降低了60.8%和64.8%,在推理速度上提升了21.2%,在LineMOD與YCB-Video數據集上分別取得了0.5%與0.6%的平均精度提升。

為了進一步驗證本文網絡的普適性,將主流的兩種算法DenseFusion與PVN3D中的原特征提取網絡替換為本文網絡,并在YCB-Video數據集上進行實驗,結果如表4所示。除了所有物體ADD-S與ADD(S)指標的平均值之外,表4還分別列出了不同算法的原特征提取網絡與本文網絡應用于該算法框架時的推理時間、浮點計算量FLOPs及參數量。實驗結果表明,在DenseFusion和PVN3D框架下,本文網絡可使推理速度分別提升68.7%與60.0%,浮點計算量分別降低78.0%與52.6%,參數量分別降低69.2%與74.6%。另外,在準確率方面,使用本文網絡的DenseFusion的ADD(S)指標提高了2.8%,使用本文網絡的PVN3D在ADD-S上實現了0.9%的提升。

綜上所述,本文網絡在保持較低網絡規模的同時仍具有強勁的性能,更加高效地實現了對RGB-D多模態信息的提取。另外,本文網絡在多種6D位姿估計框架下均能取得顯著的改進效果,這表明其還具有良好的泛用性。

4? 結束語

本文提出了一種輕量化改進XYZNet的RGB-D特征提取網絡模型,在獲得較好位姿估計準確率的同時,保持了較低的參數量。本文首先基于CSP-MSCAN與ELAN設計了一種輕量級子網絡BaseNet來替換XYZNet中的ResNet18,大幅壓縮模型規模的同時更加全面地提取多尺度特征信息;然后基于深度可分離卷積設計了一種可重參數化的多尺度卷積注意力Rep-MSCA子模塊,以減小模型的復雜度并構建了豐富的上下文信息表示;最后提出了一種可重參數化的殘差多層感知器Rep-ResP模塊,以較低的參數代價強化了PointNet提取幾何特征的能力。實驗結果表明,相較于原始XYZNet模型,改進后的XYZNet模型可在參數量顯著下降的情況下有效提升對目標位姿的估計精度與推理速度,實現對RGB-D多模態信息的高效提取。與DenseFusion和PVN3D等主流算法中的特征提取網絡相比,本文模型在估計精度、推理速度以及參數量等指標上均為最優,為位姿估計模型在硬件受限的情況下進行部署提供了有效的技術手段。未來將進一步探索如何削減網絡中殘差連接的數量,以對模型在實際應用中的推理速度作更大的提升。

參考文獻:

[1]王太勇,孫浩文. 基于關鍵點特征融合的六自由度位姿估計方法 [J]. 天津大學學報: 自然科學與工程技術版,2022,55(5): 543-551. (Wang Taiyong,Sun Haowen. Six degrees of freedom pose estimation based on keypoints feature fusion [J]. Journal of Tianjin University: Science and Technology,2022,55(5): 543-551.)

[2]Mo Ningkai,Gan Wanshui,Yokoya N,et al. ES6D: a computation efficient and symmetry-aware 6D pose regression framework [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022: 6707-6717.

[3]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04)[2023-06-01]. https://arxiv. org/abs/1409. 1556v5.

[4]Szegedy C,Liu Wei,Jia Yangqing,et al. Going deeper with convolutions [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015: 1-9.

[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.

[6]Qi C R,Su Hao,Mo Kaichun,et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 652-660.

[7]Qi C R,Yi Li,Su Hao,et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2017:5105-5114.

[8]Wang Chen,Xu Danfei,Zhu Yuke,et al. DenseFusion: 6D object pose estimation by iterative dense fusion [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 3338-3347.

[9]He Yisheng,Sun Wei,Huang Haibin,et al. PVN3D: a deep point-wise 3D keypoints voting network for 6DoF pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 11629-11638.

[10]He Yisheng,Huang Haibin,Fan Haoqiang,et al. FFB6D: a full flow bidirectional fusion network for 6D pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 3002-3012.

[11]Ding Xiaohan,Zhang Xiangyu,Han Jugong,et al. Scaling up your kernels to 31×31: revisiting large kernel design in CNNs [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022: 11953-11965.

[12]Liu Zhuang,Mao Hanzi,Wu Chaoyuan,et al. A ConvNet for the 2020s [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022: 11966-11976.

[13]Liu Ze,Lin Yutong,Cao Yue,et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 9992-10002.

[14]Guo Menghao,Lu Chengze,Liu Zhengning,et al. Visual attention network [EB/OL]. (2022-01-20) [2023-06-01]. https://arxiv. org/abs/2202. 09741.

[15]Liu Shiwei,Chen Tianlong,Chen Xiaohan,et al. More ConvNets in the 2020s: scaling up kernels beyond 51×51 using sparsity [EB/OL]. (2022-07-07)[2023-06-01]. https://arxiv.org/abs/2207.03620.

[16]Guo Menghao,Lu Chengze,Hou qibing,et al. SegNeXt: rethinking convolutional attention design for semantic segmentation [EB/OL]. (2022-11-18)[2023-06-01]. https://arxiv.org/abs/2209.08575.

[17]魏愷軒,付瑩. 基于重參數化多尺度融合網絡的高效極暗光原始圖像降噪 [J]. 計算機科學,2022,49(8): 120-126. (Wei Kai-xuan,Fu Ying. Re-parameterized multi-scale fusion network for efficient extreme low-light raw denoising [J]. Computer Science,2022,49(8): 120-126.)

[18]Arora S,Cohen N,Hazan E. On the optimization of deep networks: implicit acceleration by overparameterization [C]//Proc of International Conference on Machine Learning. 2018: 244-253.

[19]Zagoruyko S,Komodakis N. DiracNets:training very deep neural networks without skip-connections [EB/OL]. (2017-02-01) [2023-06-01]. https://arxiv.org/abs/1706.00388.

[20]Ding Xiaohan,Zhang Xiangyu,Ma Ningning,et al. RepVGG: making VGG-style convnets great again [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 13728-13737.

[21]Wang C Y,Bochkovskiy A,Liao H Y M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [EB/OL].(2022-07-06). https://arxiv.org/abs/2207.02696.

[22]張寅,朱桂熠,施天俊,等. 基于特征融合與注意力的遙感圖像小目標檢測 [J]. 光學學報,2022,42(24): 140-150. (Zhang Yin,Zhu Guiyi,Shi Tianjun,et al. Small object detection in remote sensing images based on feature fusion and attention [J]. Acta Optica Sinica,2022,42(24): 140-150.)

[23]Wang C Y,Liao H Y M,Yeh I H,et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ:IEEE Press,2020: 1571-1580.

[24]王等準,李飛,嚴春雨,等. 基于多尺度特征融合的輕量化蘋果葉部病理識別 [J]. 激光與光電子學進展,2023,60(2): 99-107. (Wang Dengzhun,Li Fei,Yan Chunyu,et al. Lightweight apple-leaf pathological recognition based on multiscale fusion [J]. Laser & Optoelectrinics Progress,2023,60(2): 99-107.)

[25]Li Guohao,Mueller M,Qian Guocheng,et al. DeepGCNs: making GCNs go as deep as CNNs [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(6): 6923-6939.

[26]Guo Menghao,Cai Junxiong,Liu Zhengning,et al. PCT: point cloud transformer [J]. Computational Visual Media,2021,7(2): 187-199.

[27]Ma Xu,Qin Can,You Haoxuan,et al. Rethinking network design and local geometry in point cloud: a simple residual MLP framework [EB/OL]. (2022-01-15) [2023-06-01]. https://arxiv. org/abs/2202. 07123.

[28]沙浩,劉越,王涌天,等. 基于二維圖像和三維幾何約束神經網絡的單目室內深度估計方法 [J]. 光學學報,2022,42(19): 47-57. (Sha Hao,Liu Yue,Wang Yongtian,et al. Monocular indoor depth estimation method based on neural networks with constraints on two-dimensional images and three-dimensional geometry [J]. Acta Optica Sinica,2022,42(19): 47-57.)

[29]Hinterstoisser S,Holzer S,Cagniart C,et al. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes [C]// Proc of International Conference on Computer Vision. Piscata-way,NJ:IEEE Press,2011: 858-865.

[30]Xiang Yu,Schmidt T,Narayanan V,et al. PoseCNN: a convolutional neural network for 6D object pose estimation in cluttered scenes [EB/OL]. (2017-09-01) [2023-06-01]. https://arxiv.org/abs/1711.00199.

[31]馬天,蒙鑫,牟琦,等. 基于特征融合的6D目標位姿估計算法 [J]. 計算機工程與設計,2023,44(2): 563-569. (Ma Tian,Meng Xin,Mou Qi,et al. 6D object pose estimation algorithm based on fea-ture fusion [J]. Computer Engineering and Design,2023,44(2): 563-569.)

猜你喜歡
圖像處理特征提取
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于圖像處理的機器人精確抓取的設計與實現
基于Daubechies(dbN)的飛行器音頻特征提取
機器學習在圖像處理中的應用
Bayesian-MCMC算法在計算機圖像處理中的實踐
改進壓縮感知算法的圖像處理仿真研究
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于圖像處理的定位器坡度計算
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合