?

一種基于改進PointNet++網絡的三維手姿估計方法

2022-11-02 11:25童立靖李嘉偉
圖學學報 2022年5期
關鍵詞:剖分局域手勢

童立靖,李嘉偉

一種基于改進PointNet++網絡的三維手姿估計方法

童立靖,李嘉偉

(北方工業大學信息學院,北京 100144)

針對PointNet++網絡處理點云局部特征時因分組范圍區過大導致計算量較大的問題,提出一種改進的PointNet++網絡的三維手姿估計方法。首先對手勢點云進行基于Delaunay三角剖分算法與K中位數聚類算法相結合的三角剖分,得到手勢點云的三角網格模型,并計算三角網格模型的邊長均值;然后以三角網格模型邊長均值為半徑,對最遠點采樣(FPS)的采樣點進行球查詢搜索,再根據搜索到的采樣點個數極值對采樣點云進行K近鄰分組,并最終輸入PointNet網絡,完成三維手姿的位置估計。改進后的PointNet++網絡可以根據不同的點云密度自動調整網絡分組區域的局部提取點個數。實驗結果表明,在不影響三維手姿估計精度的情況下,該方法提高了PointNet++網絡的模型訓練速度,并在三維手姿估計中可有效減少特征提取的計算量,使計算機能夠更快地捕捉手姿狀態。

三維手姿估計;PointNet++;Delaunay三角剖分;球查詢搜索;K近鄰搜索

三維手姿估計能夠有效提高用戶的交互體驗,在新一代人機接口技術中有著重要的作用。近年來,隨著虛擬現實、增強現實與混合現實等技術的迅速發展,對深度相機獲取的三維手勢點云進行手姿估計逐漸成為研究的熱點之一。由于手部的靈活性較高,手指的自由度較大,因而容易出現手指相互遮擋,難以均勻采樣等問題,并且手指的自相似性也較高,也為手勢估計帶來一定的困難。目前的一些三維手勢估計方法,在三維手勢的建模精度、建模算法的魯棒性,以及所用深度學習網絡的訓練速度等方面也均存在一定的挑戰。

三維手姿估計是根據獲取的手部RGB圖像、深度圖像,或手部點云,估計手部手指的三維姿態,即各手指的各關節點的三維空間坐標。本文主要研究如何從深度圖像中進行三維手姿估計。

SUN等[1]給出了一個基于隨機森林的三維手姿估計模型,但估計精度還有待提高。時夢麗等[2]提出一種基于深度圖像與幾何特征提取的手勢估計方法,其只能對特定的手勢進行估計。此外,也有一些基于深度學習的三維手姿估計方法。CAI等[3]采用基于RGB圖像的弱監督3D手姿估計方法,在訓練階段需額外引入深度正則化器進行深度圖像的計算。MOFARREH-BONAB 等[4]基于RGBD圖像與異構深度學習網絡的3D手姿估計方法,在3D手姿估計時,使用了2種不同的深度學習網絡,并引入了殘差網絡,但網絡整體結構比較復雜。GUO等[5]使用基于GCN的3D手姿估計方法,其計算要通過4個階段完成,計算略微復雜。CAI等[6]給出了一種基于條件變分自編碼器(conditional variational autoencoder,CVAE)統計框架的3D手姿估計方法,并利用單目RGB圖像推斷三維手姿,挑戰性較強,但有時估計精度不高。馬利等[7]則基于改進 PointNet網絡的三維手姿估計方法,在多層感知機(multilayer perceptron,MLP)的拼接(Concat)環節又重新將低層次與高層次特征拼接在一起,由于特征維度增大,計算量有所增加。MIRSU等[8]提出了一種基于PointNet三維手勢識別方法,由于該方法缺少采樣環節,計算量較大。GE等[9]提出了一種基于PointNet++的三維手姿估計方法,局域分組采用固定數目的點云數據,李偉強等[10]采用基于標簽分布學習的三維手部姿態估計方法,其局域分組采用的是固定半徑的球域,但這2種方法均未考慮不同的點云密度情況。

為了綜合考慮不同的點云密度,以及提高深度網絡學習與特征提取速度,本文提出一種基于三角剖分與改進PointNet++網絡的三維手姿估計方法,可以根據靜態網格模型的邊長動態決定局域分組的采樣點個數。

1 三維手勢的三角剖分方法

1.1 深度圖像預處理

根據深度相機拍攝的手勢深度圖像數據,可變換得到其點云模型(圖1)。

圖1 某手勢的深度圖像

對于手勢深度圖像,以圖像的左上角為原點建立圖像坐標系,水平向右為軸的正方向,垂直向下為軸的正方向,單位為像素。

對于深度圖中的像素點(,),按式(1)將其轉換為世界坐標系(,,),即

其中,(Center,Center)為圖像的中心點坐標;為深度傳感器的內部參數焦距;D為像素點(,)處的深度值,描述像素點到深度傳感器之間的距離,并由深度圖得到。

為了提高手姿估計的實時性,對生成的三維手勢點云模型進行最遠點采樣(farthest point sampling,FPS)[11],并盡可能地覆蓋三維手勢點云中的所有點,較大程度地保留三維手勢的整體特征。

對于數據集中的每一個點云,基于FPS算法采樣出1 024個點,并刪除其余的點,得到一個1024×3的矩陣,其中每一行代表一個點,三列分別為,,坐標;然后從1 024個點中再采出512個點,排列在矩陣的前半部分;最后再繼續從512個點中采樣出128個點,并排列在512個點的最前部。3次FPS算法的采樣結果如圖2所示。

圖2 3次FPS算法采樣后的結果

1.2 手勢點云的三角剖分方法

對于獲取的手部點云,經過2次FPS采樣后,得到了512個采樣點,基于Delaunay三角剖分算法[12],對點云進行三角剖分,形成三維手勢的不規則三角網格(triangulated irregular network,TIN)模型。

此處,TIN選擇為Delaunay三角網格。Delaunay三角網是指相互鄰接且互不重疊的三角形集合,每一三角形的外接圓內不包含其他的點(空外接圓法則)。

對于待剖分點云集合,首先對其進行平面的投影,然后,對其投影點構造一個等邊超三角形,如圖3所示。

圖3 等邊超三角形的構造

圖3中,min,max,min,max分別為點云投影點集合,軸方向的最小、最大值。首先依其構造一個外接矩形;然后,根據外接矩形,構造一個包含最小等邊三角形。

接下來,依每個投影點的坐標從小到大排序,這樣可有效提高點云三角剖分的效率。

然后根據圖3的幾何關系可以做出超三角形,構建一個以三角形3個頂點為元素的列表,將超三角形的3個頂點放入三角形鏈表中。

按序選取點云集合中的點p,在三角形鏈表中尋找外接圓包含此點的三角形,以找到的三角形的邊與點p構成新的三角形,并將新生成的三角形加入鏈表中,同時將原外界圓三角形從三角形鏈表中刪除。然后再選取下一個點,重復上述步驟,直至將所有的點都按上述步驟執行完畢。最后,刪除那些三條邊中有一條邊是超三角形的邊的三角形。

算法1.手勢點云三角部分算法。

輸入:待剖分的點云PC。

輸出:剖分三角形鏈表。

1. createTriangle ();

2. sort();

3. triangleList.add();

4. forpin

5. forTin

6. if circumcircleContain(T,p)

7.1= createTriangle(p,T·1);

8.2= createTriangle(p,T·2);

9.3= createTriangle(p,T·3);

10. triangleList.add(1);

11. triangleList.add(2);

12. triangleList.add(3);

13. triangleList.remove(T);

14. end if

15. end for

16. end for

17. forTin

18. if haveSameEdge(T,)

19. triangleList.remove(T);

20. end if

21. end for

其中:為等邊超三角形;p為中某點;T為三角形;T·e為三角形的邊;createTriangle ()為構造三角形;sort()為對點云中各點排序;triangleList.add(T),在剖分三角形鏈表triangleList加入三角形T;triangleList. remove (T)為在剖分三角形鏈表triangleList刪除三角形T;circumcircleContain(T,p)為三角形T的外界圓包含點p;haveSameEdge(T,T)為2個三角形共邊。

判斷點是否在某三角形外接圓內部的方法為:設有(1,1),(2,2),(3,3)和(4,4) 4點,令

若<0,則點在外接圓內;若>0,則點在外接圓外;若=0,則點在外接圓上。

該算法時間復雜度相對較低,對于3 000多個點的三角剖分可以在2 s內完成。

1.3 三維手勢三角剖分的修正

對手勢點云進行三角剖分后,手指間也會出現三角網格,如圖4所示。由于指間的三角網格較狹長,為了去除這些網格,需按如下方法對手勢網格進行修正:首先找到所有的三角形的最長邊;然后對這些邊長進行K-Median聚類[13],并將這些邊分為長邊與短邊;最后去除長邊長的三角形。通過2次邊長聚類后,生成的三角網格模型如圖5所示,渲染后的三維模型如圖6所示。對比圖4和圖5,本文基于聚類的三角剖分網格修正可以取得較好地建模效果。

圖4 三角剖分的中間結果

圖5 修正后的三角網格模型

圖6 渲染后的三維手勢模型

2 基于改進PointNet++網絡的三維手姿估計

2.1 OBB坐標系轉換與法矢量生成

當一個手勢在相機坐標系(或世界坐標系)下旋轉時,為了保持其相對坐標的不變性,也為了提高識別點云的實時性,以及提高深度學習網絡特征提取的有效性,需對三維手勢點云給出其定向邊界框(oriented bounding box,OBB)[14],使其能夠按照手掌方向緊緊包圍三維手勢點云。

對于第一次FPS采樣后得到的1 024個采樣點{(1,1,1),(2,2,2),···,(1024,1024,1024)}所構成的3×1024的矩陣,其協方差矩陣為

其中,分別為1 024個采樣點,,坐標的方差,即

其中,cov(,),cov(,),cov(,)分別為1 024個采樣點與Y坐標、與坐標、與Z坐標的協方差,即

然后計算協方差矩陣3的特征值1,2,3和特征向量1,2,3。特征向量1,2,3均為1×3的矩陣,三維手勢點云的OBB坐標系的坐標軸正方向即為1,2,3,協方差矩陣3的特征值表征了分量1,2,3的重要程度。

在OBB坐標系下,三維手勢點云的范圍中心為(,,),OBB坐標系下的垂直方向坐標軸的跨度為,則三維手勢采樣點在去中心化與歸一化后,其規范化坐標為

對第一次FPS采樣后得到的1 024個采樣點規范化后,對每一點P,找到離其最近的個點,依式(3)求出這個點的協方差矩陣,及其特征值與特征向量,則最小的特征值所對應的特征向量,就是點P的法矢量。將其與OBB坐標系下的坐標值一同輸入到改進的PointNet++網絡,進行三維手勢的估計計算。

2.2 PointNet++網絡的改進

文獻[9]基于PointNet++三維手姿估計方法,將手勢點云先后經過2次分組與3次PointNet網絡處理,并最終得到三維手勢估計的結果。然而在分組中,所使用的鄰域點的個數為固定值64。

考慮到不同實驗環境下采樣點在空間上的密度有所不同,固定個數的局域分組,會帶來不同大小的局域范圍,從太大或太小的局域范圍內提取的局域特征均不是好的選擇,且會影響后續三維手勢估計的精度。此外,在不影響三維手勢計算精度的前提下,分組點的個數是否還可以減少以提高計算的效率,也是一個值得研究的問題。

為了局域分組更加有效,針對文獻[9]提出的基于PointNet++的三維手姿估計方法進行了改進,使用球搜索查詢[15]與K近鄰搜索相結合的方法對采樣點進行分組。通過局域分組方法,使采樣點的局域特征提取在大致一定的范圍內進行,充分考慮點云的整體與局部密度,同時避免分組內的點個數太多或太少。分組內采樣點過多會影響局域特征提取效率,太少會影響局域特征提取的有效性。這種二次分組的方法保障了局域特征提取的有效性,同時提升了局域特征提取的效率。改進后的PointNet++網絡如圖7所示。

圖7 改進后的PointNet++網絡

首先基于深度相機獲取三維手勢的深度圖像,據式(1)將深度圖像轉化為點云模型,并基于FPS算法及1.1節深度圖像預處理的方法,分別采樣出1 024,512和128個點,并把其轉換為OBB坐標系。

然后,將1 024個點的坐標及其法矢量輸入第1級特征提取層,在該層,以512個采樣點為中心,基于球查詢搜索對1 024個點中搜索預分組的采樣點個數的最大值1,然后對其進行1近鄰的二次分組,并通過PointNet網絡學習512個128維局域特征;然后將512個128維特征及其對應的空間坐標,輸入至第2級特征提取層,在該層以128個采樣點為中心,再次基于球查詢搜索,在512個采樣點中,搜索預分組的采樣點個數的最大值2,然后再進行2近鄰的二次分組,通過PointNet網絡學習128個256維局域特征。

接著,將128個采樣點的坐標與256為特征矢量輸入至第3級特征提取層,通過一個PointNet網絡,提取1 024維全局特征。在全連接層,將1 024維全局特征向量映射到一個42維的特征矢量。因為人手的自由度比3D人手關節點的位置(3×21)少[16],可用一個42維的向量(42<3×21)表示手勢姿態特征。

由于42維的向量是人手關節點坐標3×21=63維的向量主成分,因此最后使用主成分分析(principle component analysis,PCA)方法[17]進行三維關節點位置的計算。對于數據集中的個手勢,每個手勢姿態特征可以表示為63維的向量,所以可以得出一個63行列的矩陣。對于這樣一個矩陣,其63行63列的協方差矩陣為

通過式(8)可計算出其特征值與特征向量。在特征向量中,提取最主要的42個特征向量,令這42行63列的特征向量組成的矩陣為,則對于一個手勢姿態的63維的特征向量,經PCA變換后,其42維的向量特征為

因此,63維的人手骨骼關節點坐標為

當以512個采樣點和128個采樣點為中心進行球查詢搜索時,首先按照第1節的三維手勢的三角剖分方法,對512個和128個采樣點分別進行三維手勢的三角剖分,然后分別以2次三角剖分的網格邊長均值為半徑進行球查詢搜索,以2次搜索的采樣點個數極大值1與2進行KNN 搜索,從而完成點云分組。

由于手勢模型中的各點在建立三角網格模型時是與鄰域的點建立三角形網格的,所以以512或128個點為中心建立三角形網格時的邊長均值為半徑進行球查詢搜索時,其搜索范圍大致覆蓋了512或128個互不重疊的區域,且512或128個互不重疊的區域的總和大致覆蓋了人手的整個范圍;而以搜索到點的個數極大值進行KNN搜索,同時考慮到了最多分組點的情況,這種鄰域點個數的確定方法充分考慮了點的情況,且該分組點個數少于PointNet++[9]中固定的鄰域點個數。

這樣在一個較小的鄰域,在充分考慮三維手勢建模時的鄰接點的情況下,可提取以采樣點為中心的局域特征。較小的鄰域意味著具有較好地計算效率,在充分地考慮三維網格建模的鄰接點可使得提取的局域特征較為有效。

3 實驗與結果分析

本文的實驗環境是一臺獨享的圖形服務器,其CPU為Intel(R) Xeon(R) Platinum 8260M,工作主頻為2.3 GHz,可用CPU個數為12,內存為86 G,顯卡為NVDIA RTX A6000,顯存48 G。所使用的數據集為微軟亞研院(Microsoft Research Asia)手部姿態公共數據集MSRA[18-19]、ICVL數據集[20]與NYU數據集[21]。

首先,在MSRA數據集上對本文和文獻[9]方法進行了比較性實驗。MSRA數據集包含9個主題,每個主題包含了17個手勢,實驗選用P1~P8主題為訓練集,P0為測試集,重復實驗9次,實驗結果如圖8~圖11所示。

圖8 一個epoch的平均訓練時間對比

圖9 手姿估計的平均計算時間對比

圖8為1個epoch的平均訓練時間對比,原PointNet++網絡的一個epoch的平均訓練時間約為1 099 s,改進后的平均訓練時間約為300 s,可見改進后的PointNet++網絡的訓練效率大大提高。訓練時間的減少可以在一定的時間內對訓練集數據進行更多次的模型訓練,使手姿估計的準確性進一步提升。此外,也為進一步改進PointNet++網絡模型,引入更為復雜的網絡結構創造一定的前提條件。

圖9為手姿估計的平均計算時間對比,原PointNet++網絡的一個手姿估計的平均計算時間約為16.34 ms,改進后的平均計算時間約為4.47 ms,為原計算時間的27%。改進前,PointNet++的運行速度為61 fps,改進后,在獨享圖形服務器上運行速度可達223 fps,較短的手姿估計時間,可為后續的手姿識別或手勢的3D建模爭取更多時間,有利于人手的實時人機交互,特別是在體感游戲、無接觸操控平臺等領域。較短的手姿估計時間可帶給用戶更快的實時響應,也更有利于嵌入式設備的實時手勢交互的實現。

圖10為PointNet++網絡與改進后的PointNet++的學習曲線對比。在網絡訓練的前幾代,改進后的PointNet++網絡相對PointNet++網絡收斂略慢,但約在30代以后,改進后的PointNet++網絡的訓練時間如圖8所示大為縮短,但改進后的PointNet++網絡與PointNet++網絡的收斂效果基本相同。

圖10 PointNet++與本文方法的學習曲線

圖11為改進前、后一些三維手姿估計結果對比。藍線為真實的骨骼模型,紅線為PointNet++的三維手姿估計結果,綠線為改進后的PointNet++的三維手姿估計結果??梢姼倪M后,在計算時間大為縮短的情況下,三維手姿估計的效果大體相當。

對于不同的手勢采樣點云密度,本文算法可以根據局部區域個數的不同,自動調整網絡分組區域的局部提取點個數,對于圖5所示的手勢模型,其縱向的范圍為(–1,1),不同密度下局部提取點個數對比見表1。

圖11 三維手姿估計結果對比

表1 不同密度下局部提取點個數對比

本文還將改進后的PointNet++方法在MSRA數據集上與PointNet++[9],DGECNet[22]和Pose-REN[23]方法進行了對比,其正確幀占比與關節點平均誤差如圖12和圖13所示。

圖12 MSRA數據集下的正確幀占比

圖12表明,改進后的PointNet++網絡,雖然計算時間減少了,但在相同誤差閾值下,與原PointNet++,DGECNet和Pose-REN等方法的擬合效果大致相當。圖13表明,本文方法與PointNet++均具有較小的關節點平均擬合誤差。

此外,本文方法還在ICVL[20]和NYU[21]數據集上進行了測試,并與PointNet++,DGECNet和Pose-REN方法進行了對比。其誤差閾值下的正確幀占比如圖14和圖16所示,關節點平均誤差如圖15和圖17所示。實驗表明,在ICVL數據集上,本文方法與PointNet++,DGECNet和Pose-REN等方法在相同閾值下的正確幀比率,以及關節點平均誤差基本相同。在NYU數據集下,本文方法的相同閾值下的正確幀比率略低于PointNet++,但高于DGECNet和Pose-REN方法,關節點平均誤差略高于PointNet++,但低于DGECNet和Pose-REN方法。

圖13 MSRA數據集下的關節點平均誤差

圖14 ICVL數據集下的正確幀占比

圖15 ICVL數據集下的關節點平均誤差

本文方法中確定分組采樣點個數時,是以三維手勢模型三角剖分的網格邊長的均值為球查詢半徑,實驗中本文采用了邊長均值的一半為球查詢半徑進行了對比性測試,實驗結果如圖18所示。訓練次數為55~60個epoch時,誤差放大圖如圖19所示。由圖18可知,球查詢半徑為三維手勢模型三角剖分的網格邊長均值的一半時,經過網絡學習與訓練后,也可以取得較小的手姿估計誤差。由圖19可知,本文算法盡管在一定范圍內減少球查詢半徑,但對誤差影響不大,相對大的球查詢半徑取得的三維手姿估計誤差更小。

圖16 NYU數據集下的正確幀占比

圖17 NYU數據集下的關節點平均誤差

圖18 不同球半徑查詢半徑取值的對比

圖19 圖18尾部放大顯示

4 結束語

本文提出了一種改進的PointNet++網絡的三維手姿估計方法。首先對手勢點云進行基于Delaunay三角剖分算法,同時與K中位數(K-Median)聚類算法相結合,得到手勢點云的三角網格模型,并計算三角網格模型的邊長均值;然后以三角網格模型邊長均值為半徑進行球查詢搜索,根據搜索到的采樣點個數極值進行k近鄰分組,將點云數據輸入至PointNet網絡,最終完成三維手姿估計。實驗結果表明,在不影響三維手姿估計精度的情況下,該方法提高了PointNet++網絡的模型訓練速度,并在手姿估計中可以有效減少特征提取的計算量,使計算機能夠更快地捕捉手勢姿態。

[1] SUN X, WEI Y C, SHUANG L, et al. Cascaded hand pose regression[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 824-832.

[2] 時夢麗, 張備偉, 劉光徽. 基于深度圖像的實時手勢識別方法[J]. 計算機工程與設計, 2020, 41(7): 2057-2062.

SHI M L, ZHANG B W, LIU G H. Real-time gesture recognition method based on depth image[J]. Computer Engineering and Design, 2020, 41(7): 2057-2062 (in Chinese).

[3] CAI Y J, GE L H, CAI J F, et al. Weakly-supervised 3D hand pose estimation from monocular RGB images[C]//Computer Vision – ECCV 2018, Heidelbeg: Springer, 2018: 678-694.

[4] MOFARREH-BONAB M, SEYEDARABI H, MOZAFFARI TAZEHKAND B, et al. 3D hand pose estimation using RGBD images and hybrid deep learning networks[J]. The Visual Computer, 2022, 38(6): 2023-2032.

[5] GUO S X, RIGALL E, QI L, et al. Graph-based CNNs with self-supervised module for 3D hand pose estimation from monocular RGB[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(4): 1514-1525.

[6] CAI Y J, GE L H, CAI J F, et al. 3D hand pose estimation using synthetic data and weakly labeled RGB images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(11): 3739-3753.

[7] 馬利, 金珊杉, 牛斌. 基于改進PointNet網絡的三維手姿估計方法[J]. 計算機應用研究, 2020, 37(10): 3188-3192.

MA L, JIN S S, NIU B. 3D hand pose estimation method based on improved PointNet[J]. Application Research of Computers, 2020, 37(10): 3188-3192 (in Chinese).

[8] MIRSU R, SIMION G, CALEANU C D, et al. A PointNet-based solution for 3D hand gesture recognition[EB/OL]. (2020-05-31) [2022-01-05].https://www. mdpi.com/1424-8220/20/11/3226.

[9] GE L H, CAI Y J, WENG J W, et al. Hand PointNet: 3D hand pose estimation using point sets[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8417-8426.

[10] 李偉強, 雷航, 張靜玉, 等. 基于標簽分布學習的三維手部姿態估計[J]. 計算機應用, 2021, 41(2): 550-555.

LI W Q, LEI H, ZHANG J Y, et al. 3D hand pose estimation based on label distribution learning[J]. Journal of Computer Applications, 2021, 41(2): 550-555 (in Chinese).

[11] CHEN Z, ZENG W, YANG Z, et al. LassoNet: deep lasso-selection of 3D point clouds[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(1): 195-204.

[12] AYECHE F, ALTI A. Facial expressions recognition based on delaunay triangulation of landmark and machine learning[J]. Traitement Du Signal, 2021, 38(6): 1575-1586.

[13] NAGARAJ B, ARUNKUMAR R, NISI K, et al. Enhancement of fraternal K-median algorithm with CNN for high dropout probabilities to evolve optimal time-complexity[J]. Cluster Computing, 2020, 23(3): 2001-2008.

[14] BAI D C, YI H Y, CHEN G, et al. Research on the dynamic model of human lower limbs based on 3D vision[C]//2021 IEEE International Conference on Intelligence and Safety for Robotics. New York: IEEE Press, 2021: 229-232.

[15] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//The 31st Annual Conference on Neural Information Processing Systems. Cambridge, MA: Massachusetts Institute of Technology Press, 2017: 5100-5109.

[16] OBERWEGER M, WOHLHART P, LEPETIT V. Hands deep in deep learning for hand pose estimation[C]//The 20th Computer Vision Winter Workshop. Graz ?sterreich: Verlag der Technischen Universit?t, 2015: 21-30.

[17] NAQI S M, SHARIF M, LALI I U. A 3D nodule candidate detection method supported by hybrid features to reduce false positives in lung nodule detection[J]. Multimedia Tools and Applications, 2019, 78(18): 26287-26311.

[18] ZHANG C, WANG G. GUO H, et al. Interactive hand pose estimation: Boosting accuracy in localizing extended finger joints[C]//The 9th Visual Information Processing and Communication Symposium. Springfield: Society for Imaging Science and Technology, 2018: 251:1-251:6.

[19] OBERWEGER M, LEPETIT V. DeepPrior++: improving fast and accurate 3D hand pose estimation[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 585-594.

[20] TANG D H, CHANG H J, TEJANI A, et al. Latent regression forest: structured estimation of 3D articulated hand posture[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 3786-3793.

[21] TOMPSON J, STEIN M, LECUN Y, et al. Real-time continuous pose recovery of human hands using convolutional networks[J]. ACM Transactions on Graphics, 2014, 33(5): 1-10.

[22] 姜緒. 基于點云注意力模型的手部姿態估計方法研究[D]. 大連: 大連理工大學, 2019.

JIANG X. Study of hand pose estimation methods based on point cloud attention model[D]. Dalian: Dalian University of Technology, 2019 (in Chinese).

[23] CHEN X H, WANG G J, GUO H K, et al. Pose guided structured region ensemble network for cascaded hand pose estimation[EB/OL]. [2022-01-28]. https://www.sciencedirect. com/science/article/abs/pii/S0925231219309087?via%3Dihub.

A 3D hand pose estimation method based on improved PointNet++

TONG Li-jing, LI Jia-wei

(School of Information, North China University of Technology, Beijing 100144, China)

To address the problem that the processing of local features of point cloud in PointNet++ network sometimes results in a large amount of computation due to the large grouping range, a 3D hand pose estimation method based on the improved PointNet++ network was proposed. Firstly, the gesture point cloud was triangulated based on the combination of Delaunay triangulation algorithm and K-Median clustering algorithm, thus creating the triangular mesh model of the gesture point cloud. Simultaneously the average edge length of the triangular mesh model was calculated. Then, with the average edge length of the triangular mesh model as the radius, the points sampled by the farthest point sampling (FPS) algorithm were searched by ball query. Then the sampled point cloud was grouped by K-Nearest Neighbors algorithm according to the maximum value of the searched sampled points. Finally, the grouped point cloud was input into the PointNet to perform the 3D hand pose estimation. The improved PointNet++ network can automatically adjust the number of local abstraction points of point cloud grouping according to point cloud density at different levels. Experiments show that, without affecting the accuracy of 3D hand pose estimation, the proposed method can enhance the training speed of PointNet++, as well as effectively reducing the computation of feature extraction in 3D hand pose estimation, so that the computer can capture the hand pose more quickly.

3D hand pose estimation; PointNet++; Delaunay triangulation; ball query search; K-nearest neighbor search

TP 391

10.11996/JG.j.2095-302X.2022050892

A

2095-302X(2022)05-0892-09

2022-03-28;

2022-05-30

28 March,2022;

30 May,2022

北京市科學基金一般項目(18YTC038);北京市自然科學基金青年基金項目(4194076);北京市教委科研計劃一般項目(KM201910009014)

General Project of Beijing Science Foundation (18YTC038); Youth Fund Project of Beijing Natural Science Foundation (4194076); General Project of Scientific Research Plan of Beijing Municipal Commission of Education (KM201910009014)

童立靖(1972-),男,副教授,博士。主要研究方向為計算機圖形學、計算機視覺。E-mail:ljtong@ncut.edu.cn

TONG Li-jing (1972-), associate professor, Ph.D. His main research interests cover computer graphics and computer vision. E-mail:ljtong@ncut.edu.cn

猜你喜歡
剖分局域手勢
關于二元三次樣條函數空間的維數
基于重心剖分的間斷有限體積元方法
挑戰!神秘手勢
V字手勢的由來
基于Delaunay三角剖分處理二維歐式空間MTSP的近似算法
勝利的手勢
基于快速局域線性回歸的IRAS/FY-3B大氣溫濕廓線反演
PET成像的高分辨率快速局域重建算法的建立
尼日利亞局域光伏發電的經濟性研究
共形FDTD網格剖分方法及其在艦船電磁環境效應仿真中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合