?

自動駕駛環境感知多任務去耦-融合算法

2024-03-21 02:24廖存燚劉瑋瑾劉守印
計算機應用 2024年2期
關鍵詞:多任務實例函數

廖存燚,鄭 毅,劉瑋瑾,于 歡,劉守印*

(1.華中師范大學 物理科學與技術學院,武漢 430079;2.武漢大學 測繪學院,武漢 430079)

0 引言

汽車自動駕駛系統的環境感知模塊能自主采集周邊環境信息,計算得到車輛周圍物體的位置、車輛本身的位姿和車輛附近的地圖等信息。在汽車對環境精準感知的基礎上,自動駕駛系統能對行進路線進行正確的決策。由于目前攝像設備價格低廉,拍攝的圖像富含色彩、紋理等信息,基于車載攝像機的環境感知模塊已被廣泛應用于自動駕駛中[1]。

近年來,深度學習技術在自動駕駛的環境感知領域中發揮著至關重要的作用,其中,確定車輛周圍行人和其他車輛的位置、種類和運行軌跡是研究的重點和難點任務。針對這些問題,目前研究者分別對目標檢測任務[2-3]、實例分割任務[4-5]和目標跟蹤任務[6-7]開展獨立研究。針對每個任務,目前業界提出了許多優秀的模型,且分別取得了較高的性能。自動駕駛系統需要同時接收多個任務的預測結果,以作出正確的行進決策。多個獨立的任務處理單元勢必對計算資源和實時性提出了巨大的挑戰,因此,探究一種多任務學習方法,構建能同時完成目標檢測、實例分割和目標跟蹤等多任務環境感知算法,是一項重要的研究任務[8]。

目前,構建自動駕駛環境感知多任務模型的主要思路為:首先構建一種可以并行處理多個任務的深度學習模型,模型包含多個并行模塊,每個模塊對應一個主要任務;其次,研究并行模塊間網絡參數的共享和融合,同時,探究并行模塊間的訓練優化方法,使多個任務同時收斂到最優。例如,Teichmann 等[9]提出了MultiNet 模型,通過設計單編碼器和多解碼器結構,同時完成車輛檢測、街道分類和路面分割這3個任務,提升了模型推理速度;但它的輸出層未建立共享機制,無法彼此共享權重,導致檢測精度下降。針對這個問題,Qian 等[10]提出了DLT-Ne(tDrivable Lane Traffic Network)模型用于可行駛區域、車道線和交通目標的聯合檢測。該模型提出一種上下文張量結構,融合了3 個任務的特征映射,實現了多個任務間的參數共享,提升了檢測精度;但由于上下文張量結構過于復雜,難以滿足實時檢測的要求。Wu 等[8]提出 了YOLOP(You Only Look Once Perception)模 型,在YOLOv4[3]模型基礎上,并行增添了兩個解碼器結構,節省了計算成本,減少了推理時間;但是它僅將各任務損失函數線性相加,未考慮模型各任務損失函數的權重平衡,可能導致部分子任務收斂不充分。更重要的是,由于行駛汽車周圍環境變化復雜,目前這些模型均未考慮行駛汽車周圍的行人和車輛的運動軌跡預測,不能為自動駕駛系統的決策導航模塊提供充分的決策信息。

針對以上問題,本文提出一種多任務環境感知算法。首先,通過卷積神經網絡(Convolutional Neural Network,CNN)提取連續幀圖像的空間特征。由于幀間存在相關性,本文利用代價關聯矩陣構建時序融合模塊,提取得到時空特征。然后,考慮到目標檢測、實例分割和目標跟蹤這3個任務存在著相關性,本文構建了并行執行的3 個子任務網絡,在降低模型的參數量的同時提高了運行速度。

考慮到不同任務在訓練過程中存在負遷移現象,會導致3 個任務相互干擾,降低各自任務的預測精度。針對這個問題,本文提出一種基于注意力機制的去耦-融合模塊。首先,使用注意力機制對時空特征去耦,在去耦過程中通過賦予時空特征不同的貢獻度權重,實現不同任務對時空特征的差異化選擇;其次,通過特征融合模塊對已去耦的特征進行信息整合,在融合過程中,建立一種參數共享機制,使模型充分利用了任務間的相關性,提升模型在各任務上的估計精度。

考慮到模型對不同任務的學習能力有差異,為了防止訓練收斂快的任務影響其他任務,本文提出對不同任務的損失函數使用動態加權平均[11]的方式訓練。通過上一時刻各任務損失函數的比值,動態調節各任務損失函數下降速度,從而使模型訓練時在不同任務的收斂過程中達到平衡。

為驗證本文模型的有效性,在KITTI 數據集上與近年來部分優秀的模型進行對比實驗,本文模型可并行運行目標檢測、實例分割和目標跟蹤3 個任務,運行速度達到了8.23 FPS,優于串行執行3 個任務的性能。本文模型在目標檢測方面,F1 得分優于CenterTrack 模型[12];在目標跟蹤方面,多目標跟蹤精度(Multiple Object Tracking Accuracy,MOTA)優于TraDeS(Track to Detect and Segment)模型[13];在實例分割方面,AP50和AP75指標優于SOLOv2(Segmenting Objects by LOcations version 2)模型[14]。本文還設計了消融實驗,進一步驗證了去耦-融合模塊的有效性。為了方便后續的研究工作,本文模型代碼已經開源到了https://github.com/LiaoCunyi/Decoupling_fusion_TraDes/tree/master。

1 相關工作

1.1 目標檢測

目前,目標檢測算法可分為單階段和雙階段兩種。雙階段目標檢測算法首先產生目標識別的候選區域,再修正候選區域寬高[15-16];單階段目標檢測算法直接回歸物體類別的概率和位置坐標。例如,Redmon 等[17]提出了YOLO 系列單階段模型,通過預定的錨框直接預測物體的邊界框和所屬類別,但預定的錨框會限制檢測算法的性能,并且非極大值抑制(Non-Maximum Suppression,NMS)算法等后處理算法會限制檢測算法的效率。針對這個問題,Zhou 等[18]拋棄錨框,采用基于關鍵點的方法,提出了兼顧推理時間和檢測精度的CenterNet 模型。

1.2 實例分割

實例分割需要預測對象的實例和每個像素點的分割掩碼。He 等[19]提 出Mask-RCNN(Mask Region-based Convolutional Neural Network)模型,首先進行目標檢測,提取檢測目標的邊界框,再依次對每個邊界框內部物體進行掩碼預測,得到目標的實例分割結果;但該模型速度較慢,不能滿足實時性的要求。針對這個問題,Wang等[20]提出了SOLO模型,將分割問題轉化為位置分類問題。SOLOv2在SOLO的基礎上增加了學習分類器權重以及掩碼的特征表達,極大地縮減了前向推理所需時間。目前,SOLOv2在實例分割任務中有著較好的性能。

1.3 目標跟蹤

如圖1 所示,主流的目標跟蹤框架[12]主要可分為逐步檢測跟蹤(Tracking By Detection,TBD)和聯合檢測跟蹤(Joint Detection and Tracking,JDT)兩類。

圖1 目標跟蹤框架Fig.1 Target tracking framework

TBD 方法首先對圖像逐幀檢測;然后提取檢測目標特征,通過提取得到的特征構建幀間相似度矩陣;最后運用匈牙利算法或貪婪算法等匹配方法求解矩陣,得到目標軌跡[21]。這種先檢測再跟蹤的串行跟蹤算法過于冗余,運行速度較慢。針對這個問題,JDT 方法將檢測和跟蹤并行執行,使用共享骨干網絡同時對兩個任務提取特征[22],但這種方法的檢測和跟蹤兩個任務通常獨立執行,沒有利用兩者的相關性。針對這個問題,Wu 等[13]提出TraDeS(Track to Detect and Segment)模型,通過跟蹤器的結果對公有特征進行數據增強,幫助檢測器的工作。

1.4 多任務學習

多任務學習是遷移學習的一種,旨在通過學習多個任務間的共同有效信息提高模型的學習效率和預測精度,增強模型的健壯性和泛化性能。多任務學習具有如下優勢:1)得益于多任務學習的共享機制,模型的參數量顯著下降,對硬件資源的占用大幅減??;2)由于骨干網絡的共享,模型的推理速度提升;3)若各任務之間存在相關性,各任務的檢測性能增強。因此,多任務學習被廣泛應用于計算機視覺、自然語言處理和語言識別等領域。

如圖2 所示,基于編碼器結構的多任務學習框架可分為硬共享和軟共享機制兩種。軟共享機制為每個特定任務單獨設計子網絡,并通過連接實現參數分享,有效解決了低相關性任務之間互相影響的問題。例如:Misra 等[23]提出的十字繡網絡(Cross-stitch Network),通過設計十字繡單元完成子任務間的參數分享,但是十字繡單元會逐步削減前一時刻卷積層的信息,無法關聯層數較遠的區域。閘式網絡(Sluice Network)[24]借助殘差網絡的思想,在共享層之間引入跳接與選擇性共享等策略改善此問題。這些模型參數量大,推理速度較慢,并且共享網絡的設計比較困難。硬共享機制的模型通常由一個共享的編碼器組成,之后再細分為各個特定子任務[22]。此方法網絡設計簡單且參數量少,對具有高度相關性的任務效果較好,但對于低相關性的任務通常存在負遷移的現象[25]。

圖2 多任務學習框架Fig.2 Multi-task learning framework

針對軟硬共享沖突的問題,基于解碼器結構的模型在子任務網絡間建立參數分享機制,有效解決了低相關性任務互相干擾的問題,提高了模型的性能[26-27]。

2 多任務去耦-融合算法

自動駕駛過程中,車輛需要對周圍行人和車輛等目標進行準確地感知,從而為路徑規劃提供決策基礎。由于車輛在行進過程中需要快速決策以應對各種突發情況,所以自動駕駛系統對環境感知算法的推斷時間有較為嚴格的限制。針對這個問題,本文提出了一種基于深度學習的多任務環境感知算法對環境目標并行進行目標檢測、實例分割和目標追蹤3 個任務。本文提出如圖3 所示框架的模型,該模型利用車輛行駛過程中車載攝像頭拍攝的連續幀圖像,首先通過時序融合模塊提取特征的時空信息,然后利用多任務學習技術同時實現所在區域目標檢測、識別目標類別與追蹤目標運動軌跡。

圖3 多任務去耦-融合算法整體流程Fig.3 Overall flow of multi-task decoupling-fusing algorithm

圖4 時空特征提取模塊Fig.4 Spatio-temporal feature extraction module

2.1 算法整體框架

本文提出的多任務環境感知算法的重點在于同時針對3 個任務,分別提取有效的時空特征。然而在多任務學習提取特征的過程中,這些子任務之間通常會產生認知混淆,從而相互干擾,這種現象被稱為負遷移現象。負遷移現象可能會使檢測精度比學習單一任務時大幅下降,甚至導致任務中的子任務無法收斂。本文提出一種多任務特征去耦-融合模塊,通過引入注意力機制分離時空特征,實現不同子任務對時空特征的差異化選擇;并設計特征融合模塊整合去耦特征,充分利用任務間的相關性緩解任務間的負遷移現象。

如圖3 所示,多任務環境感知算法整體流程分為時空特征提取模塊、特征去耦-融合模塊和子任務處理模塊。首先,由車載攝像頭獲取的包含環境信息的連續幀圖像作為模型的輸入。其次,通過時空特征提取模塊對連續幀圖像,分別進行空域和時域的特征提取。然后,將提取的時空特征分配給不同的子任務,如:目標檢測與實例分割子任務。值得注意的是,由于不同的子任務之間具有負遷移問題,本文設計了一種特征去耦-融合模塊,通過注意力機制學習不同子任務,針對時空特征分配的權重,從而充分利用不同子任務之間的相關性,阻止多任務學習過程中不同子任務的相互干擾。最后,將目標檢測結果通過偏移量關聯,為檢測目標分配ID 信息,并使用動態加權平均的方法對模型進行整體調優。

2.2 時空特征提取模塊

然后提取時間特征,為得到連續幀圖像中同一行人和車輛的相似度,使用矩陣乘法計算圖像間的代價關聯矩陣代表t時刻的像素點坐標(i,j)與t-n時刻的像素點坐標(k,l)之間的相似性。

最后進行時空特征融合,通過代價關聯模塊得到代價關聯矩陣Ci,j,k,l后,運動傳播模塊利用它將前n幀圖像的空間特征傳播到當前幀,并對當前幀空間特征進行補償增強。首先使用1 ×WC和1 ×HC大小的內核分別對Ci,j,k,l的寬高維度進行最大池化操作,并通過softmax 函數歸一化,得到對應的二維代價關聯矩陣它們分別表示目標物體在t時刻出現在指定像素坐標下的水平和垂直位置的最大概率。再分別計算t時刻像素點坐標(i,j)到t-n時刻像素點坐標(k,l)的水平和垂直方向上的偏移量Mi,j,l和Vi,j,k,計算公式為:

2.3 特征去耦-融合模塊

針對各任務互相影響的問題,本文提出了特征去耦-融合模塊,如圖5 所示。首先,本文設計了特征去耦模塊,分離時空特征,賦予它不同的貢獻度權重。該模塊通過減輕任務間低相關性共享信息的影響,實現不同任務對時空特征的差異化選擇。然后,針對模型輸出層共享信息不足的問題,構建了特征融合模塊。整合含有不同任務語義信息的特征,充分利用任務間的相關性,緩解不同任務間的負遷移現象。

圖5 特征去耦-融合模塊Fig.5 Feature decoupling-fusing module

注意力機制模擬了人類感知周圍環境的內部過程,試圖通過關注圖像的特定區域降低模型的運算復雜度并提高性能。在深度學習領域,注意力機制通常被當作一種資源分配的手段,根據特征的重要性程度分配不同的權重,突出重要特征忽視次要特征。自注意力(Self-Attention,SA)是注意力機制的一種,通過輸入圖像像素點的相關性確定輸入的權重分配,然而忽視了特征各通道域之間的關聯;對偶注意力(Dual-Attention,DA)[29]在自注意力的基礎上,添加了一個通道注意力的分支,試圖從空間域注意力和通道域注意力兩個模塊得到更好的權重表示,然而這種方式引入了過多的參數和計算量;有效通道注意力(Efficient Channel Attention,ECA)[30]只使用了一個感受野可學習的一維卷積核,大幅減少了計算量,并通過不降維的跨通道交互策略進一步提高了精度。本文選取有效通道注意力構建注意力機制,并通過實驗驗證了該方案的有效性。特征去耦模塊的流程如圖6所示。

圖6 特征去耦模塊流程Fig.6 Flow of feature decoupling module

其中:W1和W2為超參數表示時空特征經過全局平均池化操作后的結果。特征映射A經過大小為k的一維卷積核提取通道特征后得到Β∈R1×1×C,其中k的大小可自適應學習得到,它表示注意力關注的通道數。B通過σ=softmax 函數映射后得到通道間的注意力權重,并與時空特征相乘融合,得到目標檢測和實例分割兩個任務分別加權后的時空特征

2.4 子任務處理模塊

檢測目標的中心點(i,j)和跟蹤偏移量Oi,j進行兩步數據關聯。首先,以t-1 時刻檢測目標的中心點(i,j)+Oi,j為中心,r為半徑作圓,其中r為目標檢測框的寬度和高度的平均值。在圓中搜索最近的未匹配檢測目標,并使用匈牙利算法進行數據關聯。其次,如果第一輪匹配未在t-1 時刻找到合適的匹配對象,則計算與歷史軌跡的余弦相似度。如果在歷史軌跡中找到相似度大于設定閾值的目標時,此時認為目標在跟蹤過程中存在遮擋問題,重新為它分配相同軌跡。如果兩輪關聯均未成功,為目標分配一個新的軌跡。

2.5 損失函數優化及訓練方法

由于多個任務的訓練過程中任務訓練速度難以平衡,可能會導致過擬合或者任務訓練不充分等問題,并且多個任務之間的權重很難人工設定。此外,目標檢測、實例分割和目標跟蹤3 個任務同時存在損失不兼容的問題,也會導致負遷移現象。產生這個現象的原因在于,目標檢測任務的重點在于最小化類內誤差的同時最大化類間誤差;然而,實例分割任務由于需要區分所有目標,它的損失函數要求擴大類內誤差;目標跟蹤任務同樣重點關注類內誤差。

針對以上問題,本文使用動態加權平均的方式對網絡進行整體調優。首先,它是一種自適應的權重調節方法,有效解決了手工設計訓練權重困難的問題;其次,它會通過上一時刻各任務損失函數的比值動態地調節各任務損失函數下降速度,降低下降速度快的損失函數權重,提高下降速度慢的損失函數權重,使模型的訓練達到動態的平衡;最后,它有效地折中平衡了3 個任務損失不兼容的問題。

多任務環境感知模型通過最小化損失函數Ltotal的方式達到優化模型的目的,Ltotal的計算方式如下所示:

其中:目標檢測、實例分割和目標跟蹤3 個任務的損失函數如下:

目標檢測任務的損失函數由3 個部分組成:Lk表示熱力圖損失函數,通過降低熱力圖與標簽之間的差異,可達到預測目標中心點的目的。針對熱力圖中存在著正負樣本不均衡的問題,本文采用焦點損失(Focal Loss)作為損失函數。Lsize和Loff分別表示目標框寬高與目標中心點偏移量的損失函數,這兩個損失函數采用常用的L1 損失函數,在高度、寬度和中心點三方面同時降低預測目標框和真實目標框的誤差。對于實例分割任務,Lmask表示預測目標掩碼與真實目標掩碼之間損失函數,由于掩碼的預測實質上是基于像素點的分類任務,因此采用骰子函數(Dice Loss)作為損失函數。對于目標追蹤任務,LCVA表示代價關聯矩陣Ci,j,k,l的損失函數,為了降低連續圖像中同一對象的相似度差異,采用代價容量函數作為損失函數。3 個任務的損失函數對應的權重ωi(t)的計算公式如下所示:

其中:ri(t-1)表示任務i在t-1 時刻對應的訓練速度,N表示任務數。ri(t-1)除以超參數T后通過指數函數進行映射,當T=1 時,ωi(t)等同于softmax 函數的結果。最后計算各任務損失函數所占的比值,值越小表示任務訓練速度越快。ri(t-1)的計算公式如下所示:

其中:Ln(t-1)表示任務i在t-1 時刻的迭代周期對應的損失函數。

3 實驗與結果分析

3.1 數據集與實驗平臺

KITTI 數據集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創建,是目前自動駕駛領域最重要的數據集之一。它提供了大量真實場景下的數據,用來度量和測試算法的表現。該數據集中包含8 088 張連續幀圖片作為訓練集,4 009 張連續幀圖片作為測試集。數據集標定了行人和車輛的位置、編號以及分割信息。

實驗的硬件條件為Intel Core i7-7700K 的CPU 和NVIDIA GeForce GTX 2080Ti 12G 的顯卡,開發語言為Python,深度學習框架為PyTorch。

3.2 評價指標

在目標跟蹤任務中,本文選用多目標跟蹤精度(MOTA)和F1 得分作為評價指標,其中MOTA 用于衡量檢測目標軌跡保持方面的性能,即:

其中:FNt表示t時刻負例預測為負例的比例;FPt表示t時刻負例預測為正例的比例;GTt表示t時刻預測的總目標數;IDSWt表示跟蹤目標ID 切換的總數。

F1 得分為精確率(precision)和召回率(recall)的調和平均,用于衡量目標檢測的性能,即:

在實例分割任務中,本文使用AP50和AP75作為評價指標,分別用于評價困難和簡單場景下的實例分割性能,即:

其中:G1表示實例預測值集合,G2表示實例標簽值集合。模型的運行速度采用FPS 作為評價指標。

3.3 對比方法與定量分析

為驗證本文提出模型的有效性,與近年來部分優秀的目標跟蹤和實例分割模型對比。比較的模型包括:

1)TraDeS[13],該模型通過代價矩陣融合多幀信息,充分利用了時空信息。

2)CenterTrack[12],該模型基于關鍵點直接預測目標的中心點和前后幀之間的偏移量。

3)DEFT(Detection Embeddings for Tracking)[31],該模型在CenterTrack 的基礎上,引入LSTM 網絡過濾不合理的匹配結果,提供了一個更有效的跟蹤記憶。

4)SOLOv2[14],該模型引入了動態機制,學習卷積核權重,優化了特征提取的效率,并提出基于矩陣的非極大值抑制算法,減少了前向推理的時間。

5)OPITrack(Object Point Set Inductive Tracker)[32],該模型提出了一種用于稀疏訓練和密集測試的泛化訓練策略和樣本增強損失函數,前者有利于模型學習更多的鑒別特征,后者有利于模型學習假陽性和真陽性之間的差異。

6)SearchTrack[33],該模型融合了物體外部特征和運動軌跡線索來解決關聯問題。

上述模型在KITTI 實例分割數據集上的實驗結果如表1所示。從表1 可知,本文模型效果最優。對比單任務方法,本文模型在目標跟蹤和實例分割任務上的性能均有所提升,并且模型的推理速度優于串行處理3 個任務之和;對比多任務方法,本文模型在犧牲了推理速度的情況下,提高了模型的檢測精度。以上實驗充分驗證了本文模型的有效性。

表1 本文方法與現有方法在KITTI數據集上的對比實驗結果Tab.1 Comparative experimental results between proposed method and existing methods on KITTI dataset

3.4 消融實驗

為驗證本文模型各模塊的有效性進行了消融實驗。首先,將TraDeS 模型作為本文的基準模型(Baseline),并為它添加實例分割任務,分別使用ResNet18 和DLA34 作為特征提取的骨干網絡,所有測試模型均訓練40 個周期,并選擇性能最佳的模型進行比較分析。消融實驗添加的模塊如下:Seg為實例分割任務模塊;Self 為自注意力模塊;DA 為對偶注意力模塊;ECA 為有效通道注意力模塊;FFM 為特征融合模塊。

分析表2、3 中前兩行的數據可以看出,當使用ResNet18作為骨干網絡時,為網絡添加實例分割任務模塊時,模型的MOTA 指標下降了1.1 個百分點,同時F1 得分下降了0.6 個百分點。使用DLA34 作為骨干網絡時,MOTA 指標下降了1.1 個百分點,F1 得分下降了0.5 個百分點。兩種骨干網絡下的模型性能均低于基準模型,驗證了同時訓練目標檢測、實例分割和目標跟蹤3 個任務時會產生負遷移的現象。

表2 骨干網絡為ResNet18的特征去耦模塊增減對比實驗結果Tab.2 Comparative experimental results before and after adding feature decoupling module with ResNet18 as backbone network

為驗證本文所提特征去耦模塊和特征融合模塊的有效性,對模型依次添加這兩種模塊。首先,為整個網絡添加特征去耦模塊,結果如表2 所示。分析表2 中的數據可以看出,當骨干網絡為ResNet18 時,為模型分別添加自注意力、DA 和ECA 后,除了自注意力外,另外兩種均對網絡的性能有所提升。當為網絡添加DA 后,MOTA 指標上升了1.2 個百分點,F1 得分上升了0.6 個百分點,同時AP50上升了0.8 個百分點,AP75上升了1.8 個百分點。添加ECA 后,MOTA 指標上升了2.7 個百分點,F1 得分上升了1.3 個百分點,同時AP50上升了1.7 個百分點,AP75也上升了1.7 個百分點,因此,本文構建模型時整體選用ECA 進行研究。并且當網絡添加特征去耦模塊后,模型的運行速度僅有細微的下降,但是預測精度甚至超過了基準模型,同時還能夠并行處理3 個任務。

在此基礎上,為整個網絡添加特征融合模塊后,實驗結果如表3 所示。當骨干網絡為DLA34 時,為網絡添加ECA 注意力后,MOTA 指標上升了1.7 個百分點,F1 得分上升了0.9個百分點,同時AP50上升了3.1 個百分點,AP75上升了7.2 個百分點。添加特征融合模塊后,MOTA 指標提高了0.1 個百分點,AP75指標上升了1.1 個百分點。說明特征融合模塊對于困難條件下的實例分割任務表現良好。由此可見,消融實驗驗證了本文提出的特征去耦-融合模塊的有效性。

表3 骨干網絡為DLA34的特征融合模塊增減對比實驗結果Tab.3 Comparative experimental results before and after adding feature fusion module with DLA34 as backbone network

為了驗證動態加權平均算法的有效性,本文對比4種動態權重訓練方法,分別是等權相加、不確定權重(Uncertainty Weighting,UW)[34]、投射沖突梯度(Projecting Conflicting Gradients,PCGrad)[35]和動態加權平均,實驗結果如表4所示。

表4 多任務訓練方法對比實驗結果Tab.4 Comparison experimental results of multi-task training methods

分析表4 中數據可得,除了不確定權重外,投射沖突梯度和動態加權平均都對模型的性能有所提升。其中投射沖突梯度對目標檢測和目標跟蹤任務效果最好,但是在實例分割任務上的精度遠低于動態加權平均。因此,本文選擇了動態加權平均對模型進行整體調優。本文模型與基準模型在KITTI 數據集上的對比視覺效果如圖7 所示。

圖7 本文模型與基準模型在KITTI數據集上對比視覺效果Fig.7 Comparative visual effects of proposed model with baseline model on KITTI dataset

4 結語

本文提出的一種基于注意力機制的多任務去耦-融合模型,能并行運行目標檢測、實例分割和目標跟蹤這3 個任務,有效減少了推理時間,提高了預測精度。本文使用注意力機制將融合特征去耦,實現任務對特征的差異化選擇;使用特征融合模塊提取任務間的有效信息,增強彼此的語義表達,使得網絡能學習到含有豐富時空信息的特征,充分利用了任務間的相關性,緩解了3 個任務間的負遷移現象。除此之外,本文運用動態加權平均的方式對網絡進行訓練,平衡多任務間的學習速度。實驗結果表明,在KITTI 數據集的對比評估下,本文模型在保證推理速度的前提下,目標檢測、實例分割和目標跟蹤這3 個任務的預測精度均有提升。

猜你喜歡
多任務實例函數
二次函數
第3講 “函數”復習精講
二次函數
函數備考精講
基于中心化自動加權多任務學習的早期輕度認知障礙診斷
基于判別性局部聯合稀疏模型的多任務跟蹤
基于多任務異步處理的電力系統序網絡拓撲分析
完形填空Ⅱ
完形填空Ⅰ
未知環境下基于粒子群優化的多任務聯盟生成
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合