?

大區域場景下基于無人機視角的目標計數方法

2024-02-18 13:46張守龍丁來輝胥志偉楊曉剛王勝科
應用科學學報 2024年1期
關鍵詞:集上航拍計數

謝 婷,張守龍,丁來輝,胥志偉,楊曉剛,王勝科

1.中國海洋大學信息科學與工程學院,山東 青島 266100

2.山東巍然智能科技有限公司,山東 青島 266100

在無人機場景中,對某一區域進行目標計數是一項非常具有挑戰性的任務。當無人機超過一定飛行高度時可以獲得更廣闊的視野,捕獲更多的目標,但也意味著采集到更多更小的目標。無人機采集到的目標由于尺寸過小且易與背景相混淆而難以被檢測到,從而影響計數的準確性。同時,目前的計數工作大多基于單幀圖,如何利用無人機采集的多視角圖像去統計某一區域中真實的目標數量,如何確保多視角圖像中同一目標不重復計數,是目前多視角目標計數領域所面臨的問題。

目標檢測的精度決定了目標計數的基礎,進而影響最終的計數結果。因此,為了促進無人機在大區域場景中目標計數的智能應用,需要設計出一個滿足航拍圖像高精度要求的目標檢測框架。該目標檢測框架需融合最新的科學理論,能夠大幅度提升小目標的檢測精度。VisDrone[1]是目前流行的用于物體檢測的無人機數據集,本文整理并制作了無人機目標檢測和計數數據集OUC-UAV-CC 作為其補充。使用最新的優秀物體檢測器進行了一系列的實驗,結果顯示小物體的檢測精度遠遠小于中型和大型物體的檢測精度,這意味著開發適用于航拍領域的目標檢測器是目前面臨的巨大挑戰。

本文提出了一個大區域場景下基于多視點的目標計數策略以實現對某場景的計數工作,進而全面了解某一場景的真實情況。具體步驟為:1)無人機在規定的飛行航線下,按照一定高度和角度,對區域場景進行連續幀的拍攝來采集數據,然后將采集到的數據送入檢測器進行檢測;2)把采集到的數據根據特征點和定位信息進行匹配拼接還原場景,利用本文設計的相似性度量拼接損失函數迭代優化;3)根據本文提出的映射公式,將目標檢測結果映射到地理坐標系內并統計整個區域的目標數量,同時要確保多視角圖像中同一目標不重復計數。

1 相關工作

1.1 無人機目標檢測

當無人機在高空進行目標檢測應用時很難識別出小目標,所以在無人機目標檢測任務中,小目標檢測一直以來都是具有挑戰性的工作。目前,針對提高小目標檢測精度的策略主要歸為特征增強和數據增強兩大類。

特征增強是解決小目標包含像素信息過少而難以形成有辨別性的特征信息的問題,希望通過改進小目標的特征表達能力來提高對小目標的識別能力。特征增強策略主要包含特征融合和運用生成式對抗網絡(generative adversarial network,GAN)生成高分辨率圖像或特征兩個方面。一方面,特征金字塔網絡(feature pyramid networks,FPN)[2]作為一種典型代表,有效地結合了高層的語義信息和低層的空間信息?;贔PN,又進一步發展出了路徑聚合網絡(path aggregation network,PANet)[3]等加強版FPN結構。另一方面,基于多任務GAN的細小物體檢測(small object detection via multi-task GAN,SOD-MTGAN)方法[4]通過GAN 生成高分辨率圖像,而感知生成式對抗網絡方法[5]則運用GAN 生成高分辨率特征。特征融合與注意力機制結合的單階段目標檢測[6]借助于小目標周圍的信息以及注意力機制,解決小目標判別特征少的問題。

數據增強是針對小目標數量和尺寸不具備中目標及大目標優勢使得小目標得不到充分訓練的問題,通過加強檢測器對小目標的學習與訓練來提高小目標檢測的精度。文獻[7] 提出的增強機制通過粘貼復制小目標實現了直接增加小目標實例個數的目的,文獻[8] 提出的拼接機制則通過損失函數中小目標損失占比的反饋來調節輸入圖像的方式,提高小目標的損失對總損失的影響,間接地增加了小目標的數量。

1.2 無人機圖像拼接

由于單幅圖像的視野有限,要精確地獲取整個臨海區域目標分布信息需要對無人機拍攝的影像進行拼接。圖像拼接是將多個重疊圖像組合成高分辨率的覆蓋廣闊視野的單個圖像的過程。已有的圖像拼接算法主要是拼接兩個圖像[9-10]或是拼接同一方向拍攝的多個圖像生成全景圖像[11-15]。無人機在現實應用場景中通常需要在廣闊區域拍攝大量圖像進而生成拼接圖像[16-21]。雖然近年來出現了許多圖像拼接技術[13,22-23],但這些方法不能同時滿足無人機圖像拼接的實時性、魯棒性和準確性要求。目前已經提出了許多用于無人機圖像拼接的算法,其中,基于無地面控制點的自動圖像拼接方法[24]不僅可以獲得廣闊區域的全景圖像,還可以獲得相應的三維地形模型?;趩文繕说膶崟r增量無人機圖像拼接[17]利用運動恢復結構(structure from motion,SFM)的方法估計相對相機姿態,并將多個無人機圖像拼接成一個無縫圖像。通常,基于SFM 的拼接算法可以生成精確的正射圖像,但SFM 方法的時間復雜度非常高,不適合實時和增量使用。文獻[25] 提出了一種以增量方式進行實時拼接大型航空圖像的方法,該方法使用單眼同步定位與建圖系統(simultaneous localization and mapping,SLAM)生成3D 點云地圖,需要利用GPS 數據優化拼接效果,對于非平面環境其拼接圖像質量難以保證。

1.3 無人機目標計數

目標計數是指統計給出的圖像或視頻內目標的種類及其對應的數目。本文從計數對象依托介質的角度主要介紹單視角目標計數和多視角目標計數。單視角圖像的目標計數可以分為基于目標檢測的、基于回歸估計的和基于密度圖估計的圖像計數方法[26]?;谀繕藱z測的計數方法可以根據實際應用場景選擇檢測器,利用深度學習的目標檢測器相比于傳統的檢測器在精度和速度方面更具優勢,然而,這類方法需要對所有目標進行人工標注及檢測,不適用于目標密集或者相互遮擋的場景?;诨貧w估計[27]的目標計數是指通過建立圖像特征與目標數目的回歸模型來估計圖像中的目標總數,其中圖像特征包括尺度不變特征變換(scale-invariant feature transform,SIFT)[28]和方向梯度直方圖(histogram of oriented gradient,HOG)[29]等傳統方法提取的全局特征,回歸模型包括簡單的線性回歸或者混合高斯回歸。這類方法不需要對目標進行嚴格標注,適合目標數量多的計數任務,能夠有效降低遮擋對計數精度的影響,但其缺乏對圖像的整體理解?;诿芏葓D估計的目標計數由文獻[30]首次提出。這類方法實現了逐像素回歸計數,適用于分布密集的人群計數領域。近年來,基于深度學習的相關方法不斷涌現。文獻[31] 提出了一個基于多列卷積神經網絡的人群計數框架,將提取到的多尺度特征映射為密度圖,提高了計數精度。文獻[32] 提出了一個新穎的計數框架,通過自適應膨脹卷積網絡有效解決了透視現象造成目標尺度變化大問題,并通過自校正監督模塊修正了目標的錯誤標注?;诿芏葓D估計的方法一方面能夠獲取對圖像的整體理解,另一方面能夠有效解決目標遮擋的問題。

多視角圖像下的目標計數可以分為3 類方法,分別是基于檢測或跟蹤的方法[33-36]、基于回歸的方法[37-38]和基于3D 圓柱體的方法[39]。但這些多視角目標計數方法有以下局限性:1)需要利用前景提取技術將人群從背景中分割出來,因此前景提取步驟的有效性限制了最終的計數性能;2)手工制作的特征都用于人群檢測或人群計數回歸,手工制作的特征缺乏表征能力,降低了方法的魯棒性和性能;3)這些方法主要在基準數據集PETS2009[40]上進行測試,PETS2009 是一個多視圖數據集,人群數量少,人群行為分階段。文獻[41] 提出了一種基于深度神經網絡的多視圖計數方法和一個新的更大的多視圖計數數據集CityStreet。該計數方法提取相機視圖信息,使用給定的相機參數將其投射到3D 場景中的平均高度平面上,對投影的特征進行融合和解碼,在平均高度平面上預測場景級密度圖。文獻[42] 提出了一種基于三維高斯核的多視圖融合的三維計數方法。該方法沒有使用平均高度投影,而是使用多高度投影對人物的頭部、身體和腳的等特征進行空間對齊,使用三維高斯核生成三維人群密度圖,提供人群在三維空間的分布。將三維密度預測圖反投影到每個相機視圖,并與相機視圖的二維地面真實密度圖進行比較,定義投影一致性損失來提高準確性。

2 大區域場景下基于無人機的目標計數方法設計

本文的方法結構如圖1 所示。在特定場景下進行數據采集,將采集到的多幀連續圖像輸入到配備有空間轉深度(space to depth,STD)機制方法的檢測器的主干和頸部,該方法專門用于檢測非常小的物體。然后設計了一種針對臨海區域圖像特點的拼接方法,應用該方法有效解決臨海區域圖像拼接出現的問題。最后,根據本文提出的公式,將二維目標檢測信息投影映射到拼接圖像中進行目標計數。

圖1 廣域多視角目標計數方法的總體過程Figure 1 Overall process of the wide-area multi-view object counting method

2.1 無人機目標檢測網絡設計

卷積神經網絡在物體檢測等許多計算機視覺任務中取得了巨大成功。然而,在無人機目標檢測任務中卷積神經網絡的性能會迅速下降。這是因為,當無人機超過一定飛行高度拍攝圖像時會捕獲更多更小的目標,且航拍圖像分辨率高,包含大量無關的背景信息。同時,現有的卷積神經網絡架構使用跨步卷積或池化層,導致細粒度信息的丟失和無效特征表示的學習,直接影響對小目標的檢測。

本文針對無人機數據存在目標小且清晰度低的問題,引入STD-Conv[43]模塊來取代每個跨步卷積層和每個池化層,加強對細粒度信息的學習,一定程度提升模型的小目標對象檢測性能。STD-Conv 是由一個空間到深度的層和一個非跨步卷積層組成。本文所引入的STD-Conv組件將原始圖像轉換技術[44]推廣到卷積神經網絡內部和整個卷積神經網絡中的特征圖下采樣部分,如圖2 所示。將該方法應用于YOLOv5 方法中,只需用STD-Conv 構建塊替換YOLOv5 中步長為2 的卷積。因為在YOLOv5 中主干網絡使用了4 個步長為2 的卷積,頸部使用了2 個步長為2 卷積,所以需要替換6 個卷積。

圖2 無人機目標檢測網絡結構Figure 2 Structure of UAV target detection network

針對無人機圖像背景信息冗余和圖像特征重復提取的問題,本文借鑒快速空間金字塔池化(spatial pyramid pooling-fast,SPPF)結構的設計思想,將空間金字塔池化交叉階段局部連接(spatial pyramid pooling cross stage partial connection,SPPCSPC)結構模塊優化得到快速空間金字塔池化交叉階段局部連接(spatial pyramid pooling fast cross stage partial connection,SPPFCSPC)結構,即在最后一個卷積層上添加一個SPPFCSPC 層來消除網絡固定大小的約束。SPPFCSPC 層匯集圖像特性并生成固定長度的輸出至完全連接的層或其他分類器。換句話說,在卷積層和完全連接層之間執行一些信息“聚合”,以避免在開始時進行裁剪或縮放。圖2 展示了SPPFCSPC 層的具體結構。在保持感受野不變的情況下,有效避免了因對航拍圖像區域裁剪、縮放操作導致的圖像失真等問題,解決了卷積神經網絡對圖像相關特征重復提取的問題,大大提高了產生候選框的速度,節省了計算成本。

2.2 臨海區域圖像拼接

受無人機高度和相機參數的限制,無人機拍攝的單幅圖像視野有限。要獲取臨海區域的全面情況就需要對無人機拍攝的圖像進行拼接,得到全景圖像。拼接算法通常需要對圖像的特征點進行提取,再進行特征匹配,但由于受風和海浪的影響,靠海區域表面不同時刻具有不同的表面形態,且臨海區域(如沙灘)表面高度相似,特征不明顯,與建筑物等其他地表物體相比有著巨大差異,在特征匹配時不同圖像中的特征點很難匹配成功,從而導致拼接錯誤或失敗。為此本文設計了針對無人機臨海區域圖像特點的拼接算法,根據相似性度量拼接融合損失迭代的方法優化拼接結果。在多視角的拼接過程中,首先提取每幅影像的特征點,引入無人機拍攝圖像中的定位信息進行特征匹配拼接,多視圖中特征點的匹配是其中的關鍵步驟。如圖3 所示,EXIF 標簽是指圖像中的GPS 或者更高精度的實時動態差分定位(real-time kinematic,RTK)定位信息,利用其中的位置信息可以減少大量不必要的圖像之間的匹配,減少匹配錯誤,提高匹配精度以及效率。然后根據Loss 函數調整優化,不斷迭代得到最終的拼接圖像。最后,將圖像映射到地圖的實際位置上進行定位。

圖3 圖像拼接流程Figure 3 Image stitching process

2.3 目標計數統計

本文提出將航拍圖像中的二維目標檢測結果映射到地理位置坐標,定位目標在區域中的分布情況,并利用最大值選擇算法保留同一目標的一次映射結果,進而統計場景中的目標數量。

2.3.1 二維目標檢測信息映射至全局圖像

首先,通過GPS、慣性測量單元(inertial measurement unit,IMU)和相機的標定參數等獲取航拍圖像的位置和姿態信息。本文已知航拍圖像的位置坐標和姿態信息,航拍高度為30 m,相機俯仰角為30°,方位角為0°。其次,利用相機的內外參數和地面控制點等信息使用攝影測量技術計算出每個像素點在地理坐標系下的坐標,將航拍圖像轉換為地理坐標系下的影像。最后,使用提出的檢測算法在航拍圖像中檢測目標,并得到其在像素坐標系下的邊界框坐標(xmin,ymin,xmax,ymax),進而將二維目標檢測結果映射到地理坐標系下的坐標,公式為

式中:ox和oy是影像左上角像素在地理坐標系下的坐標;xgeo和ygeo是目標在地理坐標系下的坐標;gr是地面分辨率,具體是指航拍圖像中一個像素所代表的地面距離,通常用m/像素表示。獲取地面分辨率的具體方法取決于航拍系統和傳感器的參數設置,可以通過相機的焦距和像素大小計算得到,以無人機航拍為例,獲取地面分辨率的公式為

式中:h為無人機相對地面的高度;f為相機的水平視場角;s為相機傳感器的對角線長度。在目標檢測中,地面分辨率的大小直接影響到目標在圖像中的尺寸和位置,因此需要準確地估計地面分辨率。

根據需要可以將地理坐標系下的坐標轉換為經緯度坐標系,利用經緯度的唯一性,在多視角的圖像中對同一目標檢測結果的重復映射進行去重,以滿足計數應用的需求。

需要注意的是,這個過程需要精確的相機標定、IMU 數據以及地面控制點等信息,并且需要進行高精度計算以保證結果的準確性。

2.3.2 去重計數

為了更加真實準確地估計出大區域場景中的目標數量,在映射有二維目標檢測信息的全局圖像中設置非極大值抑制參數。對于每個目標檢測框,計算其置信度得分,將所有的目標檢測框按照置信度得分從高到低進行排序;選擇置信度得分最高的目標檢測框,并將其保留作為最終檢測結果。遍歷剩余的目標檢測框,計算其與已選框的重疊率。如果重疊率大于設定的閾值(通常為0.5),則將該框從候選框列表中刪除。返回最終保留的目標檢測框作為最終的檢測結果。具體公式為

式中:parea為重疊率;(Ax1,Ay1) 和(Ax2,Ay2) 分別表示邊界框A的左上角和右下角的坐標;(Bx1,By1) 和(Bx2,By2) 分別表示邊界框B的左上角和右下角的坐標。

將重疊率與設定的閾值進行比較后決定是否保留該目標檢測框。重疊率越大,說明兩個邊界框重疊程度越高,越可能是同一個目標,因此應該刪除其中一個。反之,如果重疊率較小,則可以保留兩個邊界框作為獨立的目標。

通過對檢測到的目標進行置信度排序,消除與較高置信度目標有重疊的且置信度較低的目標,可以有效減少重復計數的情況。

3 實驗

3.1 無人機目標檢測網絡

3.1.1 數據集

在常用的無人機公開數據集中大部分圖像為低空俯瞰視角,例如Visdrone 數據集,如圖4 所示。無人機拍攝高度不夠高,并且小目標較少,尺度變化不大,航拍存在的問題并沒有完全體現出來。所以本文基于大疆系列無人機平臺在不同高度和不同角度進行數據收集,制作了OUC-UAV-CC 數據集作為補充。該數據集主要以沙灘及其海邊等場景為主,小目標占比高,具有更高分辨率和更密集的對象分布,能夠更好地檢驗出算法模型的魯棒性和有效性。圖5 展示了數據集中帶標注的圖像的一些示例。

圖4 VisDrone 數據集中圖像的低空視圖Figure 4 Low altitude view of an image in VisDrone dataset

圖5 OUC-UAV-CC 數據集中的標注圖像Figure 5 Annotated images in OUC-UAV-CC dataset

OUC-UAV-CC 數據集由1 507 幅圖像和116 988 個對象實例組成。根據訓練集、驗證集和測試集的數據相同分布原則,本文在1 507 幅初始圖像中以6∶2∶2 的比例隨機分割訓練集、驗證集和測試集中的數據。根據本文的需要,選擇了“人”作為標簽類別。OUC-UAV-CC 數據集和VisDrone 數據集的比較如表1 所示。由表1 可知,OUC-UAV-CC 數據集和VisDrone數據集的小目標(32×32 像素)和微小目標(16×16 像素)的占比都較高。本文將在VisDrone數據集和構建的OUC-UAV-CC 數據集上評估提出的方法。

表1 VisDrone 和OUC-UAV-CC 的相關屬性比較Table 1 Comparison of relative attributes between VisDrone and OUC-UAV-CC

3.1.2 實施細節

所有實驗都是在4 卡Nvidia2080ti(12G)上進行的,在訓練和評估過程中,受實驗環境和硬件條件的限制,所有輸入圖像的大小都調整為640×640像素。本文選擇基于CNN 的目標檢測器作為實驗算法,實現了FasterR-CNN[45]、CascadeRCNN[46]、LibraRCNN[47]、CenterNet[48]、TridentNet[49]、ATSS[50]、AutoAssign[51]、FCOS[52]、FSAF[53]、Sabl[54]、TOOD[55]、YOLOF[56]和YOLOv5。對于以上方法,本文均使用官方代碼,其中YOLOv5 選擇了YOLOv5-l 版本。在VisDrone 和OUC-UAV-CC 數據集上訓練時,Epoch設置為300。所有檢測器既不使用諸如YOLT 中的圖像裁剪之類的預處理策略,也不使用諸如模型集成之類的后處理策略。

3.1.3 實驗結果與評價指標

在目標檢測中,平均精度(average precision,AP)和全類平均精度(mean average precision,mAP)是兩個重要的衡量指標,公式為

式中:Nc 為類別數;mAP 指交并比閾值分別在0.50~0.95 之間每隔0.05 的AP 的平均值。文中mAP50值指交并比閾值為0.50 時的mAP,mAP75值指交并比閾值為0.75 時的mAP,mAPS值指小尺寸目標的mAP,mAPM值指中等尺寸目標的mAP,mAPL值指大尺寸目標的mAP。

本文分別在VisDrone 數據集和OUC-UAV-CC 數據集上對STP-Conv 結構和改進的空間金字塔結構SPPFCSPC 的有效性進行了消融實驗,并對實驗結果進行了分析。實驗結果分別如表2 和3 所示?;赮OLOv5,本文首先研究了STP-Conv 結構對小目標檢測性能的影響,表3 和4 中數據顯示僅加入STP-Conv 結構,包括小目標檢測AP 在內的各AP 值顯著提高。接著,本文研究了聯合使用了STP-Conv 結構和SPPFCSPC 策略對網絡影響。如表3和4 中相關數據說明,利用本文提出的SPPFCSPC 進一步激發了檢測器的學習能力,使檢測精度達到了最高值。與YOLOv5 相比,本文方法可以使目標檢測尤其是小目標檢測的精度有較明顯提升,驗證了所提的無人機目標檢測網絡是有效的。

表2 在VisDrone 驗證集上分步改進的性能Table 2 Step-by-step improved performance on VisDrone verification set

表3 在OUC-UAV-CC 測試集上分步改進的性能Table 3 Step-by-step improved performance on OUC-UAV-CC test set

本文分別在VisDrone 數據集和OUC-UAV-CC 數據集上對提出的方法和其他流行的目標檢測算法進行了實驗并對實驗結果進行了分析。在VisDrone 數據集和OUC-UAV-CC 數據集上的結果分別如表4 和表5 所示??梢钥吹?,無論是在VisDrone 數據集還是在OUC-UAV-CC 數據集,本文提出的算法相比原始的YOLOv5 版本的AP 各指標均有所提高,小目標檢測精度的提升較為明顯,驗證了本文算法的有效性。本文算法的結果同時也超過了其他流行的目標檢測算法,進一步說明了本文算法的優越性。

表4 與最先進的探測器在VisDrone 驗證數據集上進行比較Table 4 Comparison with state-of-the-art detectors on VisDrone validation dataset

表5 與最先進的探測器在OUC-UAV-CC 數據集上進行比較Table 5 Comparison with state-of-the-art detectors on OUC-UAV-CC test dataset

3.1.4 可視化效果

本文對實驗的檢測結果進行了部分可視化展示,具體如圖6 所示,其中圖6(a) 為原始圖像;圖6(b) 為YOLOv5 的檢測結果;圖6(c) 為本文方法的結果。與YOLOv5 相比本文的方法可以檢測到尺寸更小的目標。

圖6 檢測結果部分可視化展示Figure 6 Partial visualization display of detection result

3.2 圖像的拼接融合

3.2.1 數據集

本節用到的數據是上節構建的目標計數數據集OUC-UAV-CC,同時從公開的無人機數據集VisDroneMOT2021 和數據集UAVDT 中挑選了部分合適的數據作為補充,命名為VisDrone-CC。VisDrone-CC 數據集的部分原圖如圖7 所示。

圖7 來自VisDrone-CC 數據集的圖像示例Figure 7 Examples of images from VisDrone-CC dataset

3.3 映射與計數

3.3.1 數據集

本節將上一節中已經成功拼接的圖像作為本節實驗的數據基礎,隨后進行一系列的實驗,以探索和驗證所提算法的有效性,期望能夠獲得更加準確和全面的研究結果。此外,本節所進行的實驗也將幫助后續評估和優化拼接方法,進一步提升其在實際應用中的性能和可靠性。

3.3.2 實驗細節

為了統計某場景中的人群數量,該部分將單幀圖片的標注信息和目標檢測信息分別根據式(1) 和(2) 映射到拼接圖像中,進而進行計數。其中由標注信息映射到拼接圖像中進行計數的結果作為groundtruth。該部分選擇計數精度(Atotal)和計數平均絕對值誤差(mean absolute error,MAE)作為評價指標。計數精度(Atotal)是指拼接圖像中目標的總數量total的算法預測值c與實際值gt的比值,計數精度描述了計數算法準確度的最終表現性能,公式為

計數MAE 是指拼接圖像中目標計數的算法預測值與真實值的累計絕對值誤差的平均值,描述了計數算法在拼接圖像內準確度的平均值,公式為

式中:Ci表示第i幅人群圖像經過人群計數模型處理后輸出的人數估計值;為第i幅人群圖像的實際真實人數;N為參與此次評估的人群圖像數;MAE 反映模型的準確度,指標越小越好。

3.3.3 可視化效果

圖8 展示了該部分利用所提方法進行拼接的效果,其中圖8(a) 展示了拍攝的單幀圖像,圖8(b) 展示的是將這些單獨的圖像經過精細處理后無縫拼接成的一個連續且統一視角的全景圖像,可以清楚地看到所提方法在處理多幀圖像時的優勢。

圖8 圖像拼接效果顯示Figure 8 Display of image stitching effect

3.3.4 結果

本節實驗旨在比較本文提出的目標檢測算法與YOLOv5 算法的最終計數精度。分別在OUC-UAV-CC 數據集和VisDrone-cc 數據集進行了對比實驗,并對實驗結果進行分析。表6和7 分別展示了2 個數據集上的對比實驗結果??梢钥闯?,在任一數據集上,利用本文提出的檢測算法進行計數時所得精度均高于YOLOv5 的精度。這說明了本文檢測算法的優越性,并驗證了檢測精度越高,計數效果越好的結論。

表6 不同檢測算法在VisDrone-CC 數據集上的計數表現Table 6 Counting performance of different detection algorithms on VisDrone-CC dataset %

表7 不同檢測算法在OUC-UAV-CC 數據集上的計數表現Table 7 Counting performance of different detection algorithms on OUC-UAVCC dataset %

3.4 實驗分析

在本文的實驗中,我們分別使用YOLOv5 和YOLOv7 對數據集進行測試。通過可視化實驗結果發現,與YOLOv5 相比,YOLOv7 在沙灘場景下的檢測不夠精準,甚至出現了大量誤檢的現象,這是由于數據集本身存在的問題造成的。與自然數據集相比,本文構建的航拍數據集中目標較小且密集,容易與背景混淆且有大量相似干擾,增加了檢測的難度,使得YOLOv7 在該數據集上更容易過擬合。此外,針對實際應用出現的問題,使用基于YOLOv5的網絡結構進行改進更為準確。因此,本文提出的方法是在YOLOv5 的基礎上進行改進的。

4 結論

本文提出了一種多視點目標計數策略,突破了單幀圖像計數的局限性,將目標計數的研究從固定攝像機推進到多視圖設置,通過實驗也驗證了本文方法的有效性。主要工作有以下幾點:

1)提出了一種無卷積步長或池化的方法,同時改進空間金字塔結構,設計了新的網絡結構,該網絡結構更適合于對航拍圖像的預測。

2)基于沙灘海域的圖像特點,設計了新的圖像拼接方法,提出相似性度量剪接融合損失。

3)提出了二維檢測信息映射到地理坐標的公式,通過映射到場景級圖像中進行計數統計。

4)在VisDrone 數據集上進行實驗。新的網絡結構在圖像尺寸較大且小目標豐富的情況下,將mAP 全部提升1.4%。所提出的計數策略在VisDrone-CC 數據集上進行了實驗驗證,計數精度提升1.5%。作為VisDrone 的補充,本文構建了一個豐富場景且更能體現航拍圖像特征的數據集OUC-UAV-CC。在該數據集上進行實驗,所提出的網絡結構將mAP 提升了2.2%,計數精度提升了1.7%,證明了所提方法的有效性。

猜你喜歡
集上航拍計數
古人計數
航拍下的苗圃與農場
遞歸計數的六種方式
Cookie-Cutter集上的Gibbs測度
古代的計數方法
鏈完備偏序集上廣義向量均衡問題解映射的保序性
難忘的航拍
這樣“計數”不惱人
復扇形指標集上的分布混沌
《航拍中國》美得讓人想哭
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合