?

一種基于多尺度的目標檢測錨點構造方法

2024-02-29 14:38邵延華黃琦夢梅艷瑩張曉強楚紅雨吳亞東
紅外技術 2024年2期
關鍵詞:錨點尺度紅外

邵延華,黃琦夢,梅艷瑩,張曉強,楚紅雨,吳亞東

(1.西南科技大學 信息工程學院,四川 綿陽 621010;2.四川輕化工大學 計算機科學與工程學院,四川 自貢 643000)

0 引言

目標檢測是當前計算機視覺領域的研究熱點,其中目標尺度多變是最具挑戰性的問題之一[1-2]。針對上述問題,國內外學者提出多尺度檢測方法[3],利用檢測器構建特征金字塔和多尺度特征輸出獲取更優的預測結果。為實現多尺度輸出,錨點(anchor)被著名的Faster-RCNN[3]首次引入目標檢測:即對圖像中的目標進行分類檢測之前,預先放置一批已知長寬的候選框,以便網絡進行分類和識別。從此,基于錨點的檢測算法成為目標檢測領域的一個重要分支[1]。

YOLO(you only look once)除YOLO v1 與YOLOX 外,均為典型的單階段基于錨點的檢測模型[4]。YOLO v1 使用全連接層直接預測邊界框,由于空間信息丟失較多,導致定位不準。YOLO v2 受Faster-RCNN 啟發,通過引入大量錨點來代替v1 的全連接層進行邊界框預測,并使用交并比(intersection over Union,IoU)[5]值最高的錨點結合預測偏移量得到預測框,提高了檢測精度。由于原版YOLO 模型的錨點是通過聚類MS-COCO[6]數據集得到的,對于特定場景數據集來說,部分錨點取值可能并不合理。因此,為避免上述問題,部分研究者提出了無錨點的檢測模型,但該類方法由于圖像金字塔或特征金字塔層數較多,導致檢測速度有所降低[7-8]。另有研究者在訓練基于錨點的目標檢測模型前使用基于歐式距離的K-means 聚類方法自動找到較為合適的先驗框。但出現第二個問題:K-means 的初始值對其結果影響較大,導致結果僅為局部最優[8]。同時,通過聚類產生的錨點與數據集密切相關,當場景數據集類別單一或目標尺寸較集中時,聚類產生的錨點差異較小,無法體現YOLO 多尺度輸出的優勢[4]。

研究發現,不同場景的數據集具有不同的特點[5],也影響錨點的取值。相較于可見光數據集(如MSCOCO),紅外數據集多具有小樣本、目標少等特點,更容易導致聚類產生的錨點尺寸相似、缺乏多樣性的問題。此外,熱紅外圖像對比度低且紋理特征弱,會影響檢測精度。故提升紅外數據的檢測精度是當前目標檢測領域的熱點之一。

針對人工設置錨點尺寸固定,泛化性差的問題,本文對錨點的優化進行深入討論,提出一種多尺度的目標檢測錨點構造方法(multi-scale-anchor,MSA)。該方法產生的錨點可根據數據集本身的特性進行線性尺度的縮放和拉伸,既保證模型多尺度的優勢又體現不同數據集的特點。通過在YOLO 系列的多個典型網絡上進行測試,并分別使用中國空氣動力研究與發展中心的渦核(Vox)檢測[9]和南京航空航天大學的ComNet 紅外人車航拍檢測[10]等4 種不同場景的數據集驗證了該方法的有效性。

1 錨點的研究進展

深度學習已成為目標檢測任務的主流方法,基于錨點的目標檢測器也廣泛應用于各個領域[1]。本章根據基于錨點模型的發展現狀,進一步總結錨點機制的優缺點,并列舉分析近幾年改進的基于錨點檢測器典型范式。

1.1 錨點機制的優勢與局限

在目標檢測中,可能出現極小、極大或者極端形狀(如高窄型、寬扁型等)的物體,導致網絡訓練時對目標的識別和定位較困難[11]。將多尺度的錨點應用于檢測模型中,被證明是解決網絡尺度問題的有效方法,但基于錨點系列模型存在以下3 方面的問題[1]:

①錨點策略存在尺寸固定、模型魯棒性差等問題。錨點的相關超參數(尺寸大小、縱橫比、IoU[11]閾值)對預測結果的魯棒性影響較為明顯。由于超參數的設置與場景數據集密切相關,預置錨點的大小、比例在檢測尺寸差異較大的物體時泛化能力弱。

②大量的錨點會導致網絡參數增多,運算復雜度增大。由于基于錨點檢測方法本質上是對圖像進行密集采樣,故導致產生冗余錨點。例如DSSD(deconvolutional single shot detector)[12]中錨點的設置超過4 萬個,RetinaNet[13]超過10 萬。

郝關排閘布置1孔,孔深15m。閘基高程3.8~7.8m為第②層壤土,具中等壓縮性,微弱透水性,強度較高,構成地基主要持力層;高程3.8m以下為第③壤土,含大量腐殖質和貝殼、螺殼碎屑,局部呈淤泥質,工程性質相對較差。

③基于錨點的檢測模型中只有少部分錨點會與真實目標重合,多數錨點為僅包含背景信息的負樣本。這種情況會導致訓練時正樣本與負樣本的比例失衡,易使模型的分類能力受負樣本影響。

1.2 錨點的相關優化

針對當前錨點機制存在的問題,一些研究人員從尺度、數量等方面改進錨點,達到優化目的。在尺度方面,Cai 等[14]在不同的特征層中設計不同尺度的檢測器,低層的卷積網絡用于檢測包含小目標,高層的卷積網絡用于檢測大目標。Zhu 等[15]提出一種基于步長縮減方法生成錨點的新策略,在檢測包含小目標的高分辨特征圖時防止漏檢。在數量方面,Ke 等[16]提出一種多錨點學習方法,基于交并比篩選部分優質的錨點,并構造屬于固定目標的錨點袋,再結合分類評估錨點袋中正樣本的訓練損失。

對基于錨點機制的檢測模型來說,無論是多尺度還是大數量,都會增加計算復雜度以及內存的消耗。故部分研究人員提出無錨點機制,其中典型的工作為Law 等[7]提出的基于關鍵點的無錨點檢測模型CornerNet,使用特定點配對構造的預測框檢測目標,但使用特定點進行預測導致缺乏物體內部信息,檢測的準確性有待提升。

隨著基于錨點檢測和無錨點檢測兩種不同思路的發展,Zhang 等[5]探究了二者之間產生差異的根本原因是標簽分配策略,該策略可進一步提升目標檢測器的精度。故相較于無錨點檢測模型,針對基于錨點檢測模型進行再優化的思想更為合理。

2 多尺度錨點(MSA)

在基于錨點的檢測模型中,錨點的取值尤為重要,檢測之前要預設錨點的尺寸和比例,檢測時根據預設的錨點進行回歸。最終得到預測框,錨點的取值關乎檢測模型的精度。

2.1 錨點的取值及作用

錨點為一批具有預定義位置、比例和長寬比的框?;阱^點的檢測模型通常需要大量的錨點,以確保與真值框(ground truth)有足夠高的交并比。交并比是目標檢測中的重要指標之一,通過預測框和Ground truth 間的交集與并集的比例進行計算,常用于評價預測框的優劣,其定義如下[11]:

式中:Bgt為Ground truth 的面積;B為預測框的面積。在訓練過程中,當錨點與Ground truth 有足夠高的IoU 時,該錨點結合偏移后作為最終的預測框。該方法搜索范圍小、易收斂且降低了訓練難度。

2.2 MSA 錨點優化

研究可知,數據集目標尺寸過于單一時,聚類方法產生新的錨點尺寸差異亦較小。故本文將聚類所產生的錨點再次根據數據集本身的特性進行線性尺度的縮放和拉伸來優化錨點的取值。渦核(Vox)數據集作為典型的工業現場數據集[10],來源于中國空氣動力研究與發展中心進行的直升機旋翼流場測量試驗。該數據集類別較為單一且目標尺寸較集中,Ground truth 縱橫比約為1,優化實例如圖1所示。

圖1 Vox 數據集上不同錨點與Ground truth 對比Fig.1 Comparison between Ground truth and different anchors on Vox data sets

圖1(a)是由MS-COCO 數據集聚類而得到的錨點,其值與Vox 數據集的目標相差較大,導致面向特定目標時,交并比幾乎只由少數幾個錨點來決定,其余取值并不合理。圖1(b)是由K-means 聚類所產生的錨點,該方法產生的錨點受初始值影響較大且對噪音和異常點比較的敏感,導致大多數Ground truth 比得到的錨點尺寸略大,在訓練時對模型要求更高。圖1(c)為本文所提出的MSA 方法產生的錨點,既結合數據集的特性也保留了模型多尺度輸出的優勢,提高了聚類對噪音和異常點的泛化能力。

由圖1 可知,對于YOLOv3-tiny 等錨點較少的輕量級模型來說,錨點個數較少,聚類后的錨點更無法體現多尺度的優點。因此,本文引入多尺度優化,具體來講將最大的錨點再擴大相應的倍數,將最小的錨點再縮小相應的倍數。具體如式(2)所示:

式中:xs和ys為最小錨點的長和寬;xm和ym為最大錨點的長和寬;xs′、ys′、xm′、ym′為縮放后的錨點長寬值;α為縮小倍數,β為放大倍數,實驗觀察二者基本滿足α≈2-β,其值對不同類型的數據集可進行微調。建議當數據集目標尺寸較單一時α和β取差異較大的值,如0.4 與1.6;若數據集目標尺寸的尺度仍有變化,則α和β可取差異較大的數值,如0.9 與1.1??傊?,依本文方法,可進一步結合傳統的網格尋優技術自動獲取更有效的錨點值。

當錨點與Ground truth 有足夠高的交并比時,該錨點結合偏移即可更有效地得到預測框。不同錨點中,IoU 值最大的錨點與數據集的Ground truth 對比如圖2所示。

圖2 IoU 值最大的錨點與Ground truth 的對比示例Fig.2 Example of comparison between the anchor point with the maximum IoU value and ground truth

由圖1 和2 可知,當數據集中的目標尺寸較集中或異常點個數較多時,部分目標的Ground truth 比聚類得到的錨點尺寸略大,導致訓練時對模型要求較高。因此將縮放后的值進行線性尺度的拉伸,可改善此問題,其計算公式如式(3)所示。

式中:xi與yi為變化前的錨點值;xi′與yi′為變化后的錨點。通過式(2)和式(3)可將聚類后尺度變化不顯著的錨點進行優化,從而既體現YOLO 算法多尺度輸出的優勢,又保留了對應場景數據集的特點。

3 數據集

數據集是衡量算法性能的基礎,不同數據集會帶來不同的挑戰[18]。紅外圖像對比度低、紋理特征不足,使檢測面臨更大的挑戰。同時,紅外現場實驗不易,數據集難以獲得,故大部分的紅外數據集具有小樣本、目標少等特點。為使訓練得到的網絡更加具有魯棒性,且驗證MSA 優化方法對于不同特性的目標具有較強的泛化能力,選擇4 種不同場景的數據集進行多次測試。數據集的部分示例圖像如圖3所示。

圖3 四類數據集的部分示例圖像Fig.3 Partial sample images of four types of datasets

3.1 南航ComNet 紅外人車檢測數據集

ComNet 數據集來自南京航空航天大學Minglei Li[9]等所拍攝標注的紅外人車檢測圖像數據集,由搭載在大疆M600Pro 無人機上的紅外Vue Pro 熱成像相機采集。數據集分別在白天和晚上捕獲了包括校園和街道的各種常規交通場景,使用Labelme 對這些圖像進行手工標注,生成所需的訓練數據和評估數據。ComNet 數據集包含2975 張熱紅外圖像,包括4768個行人實例和3856 個車輛實例,即包括非剛體目標和剛體目標,圖片大小為640×512。該數據集的部分示例圖像如圖3(a)所示。

3.2 Roboflow TDP 數據集

Roboflow TDP(thermal dogs and people dataset)數據集,包括人和狗在不同距離上的203 張熱紅外圖像,由Seek Compact XR Extra Range 紅外相機拍攝。數據集中既有縱向又有橫向目標,且保留一些不含目標的負樣本圖像?;诩t外成像的人體和動物目標檢測在安全、野生動物探測、狩獵和戶外娛樂方面都具有廣泛應用。其部分示例圖像如圖3(b)所示。

3.3 Roboflow 口罩(Roboflow-mask)數據集

近期全球新型冠狀病毒肆虐,在大型的公共場所對各種人員進行口罩檢測能夠減少人員之間交叉感染的風險。Roboflow-mask 口罩數據集包括149 張戴口罩的人和未戴口罩的人。其部分示例圖像如圖3(c)所示。

3.4 渦核(Vox)數據集

Vox 數據集[10]是具有專業背景的渦核檢測數據集,該數據集來源于中國空氣動力研究與發展中心進行的直升機旋翼流場測量試驗。Vox 數據集的訓練集包括500 張渦核樣本圖像;測試集包括106 張渦核樣本圖像。數據集類別較為單一且目標尺寸較集中,其Ground truth 縱橫比約為1。其部分示例圖像如圖3(d)所示。

4 實驗與分析

本文實現和測試算法使用計算機硬件配置為i7-9700K,GPU 版本為NVIDIA GeForce RTX 2080Ti;計算機軟件配置為 CUDA10.2,PyTorch1.10,Python3.8。

4.1 精度測試

基于IoU 閾值為0.5 的檢測平均精度均值(mean average precision,mAP)已成為多年來目標檢測問題最重要的實際度量標準之一[19]。本文使用YOLOv3-tiny 網絡在4 種不同的數據集上進行測試,mAP@0.5結果如表1所示。其中Vox 數據集和ComNet 數據集由實驗得出放大倍數α=1.5,縮小倍數β=0.5 時所得結果較為理想。TDP 數據集部分Ground truth 的縱橫比差距較大,本文針對縮放倍數進行多次實驗尋優并微調,具體見圖4。Roboflow-mask 數據集圖片較少且目標尺寸變化較為顯著,故微調放大倍數α=1.2,縮小倍數β=0.5 時所得精度有所提高。

表1 不同Anchor 在四類數據集上的對比結果Table 1 Comparison results of different anchors on four data sets

圖4 TDP 數據集中錨點縮放的消融測試Fig.4 Ablative test of anchor point scaling on TDP dataset

由表1 可知,改進后的錨點在4 個數據集上的測試結果mAP@0.5 指標均有所提升,針對不同特點的數據集縮放倍數只需微調即可有效提升目標檢測的精度。其中,Roboflow-mask 數據集樣本較少且兩個類別的Ground truth 數量差異較大,故mAP@0.5相對較低,但使用改進錨點后檢測精度仍有提高。若數據集中未正確檢測樣本難例較多,例如模糊目標、較暗目標等難例,可通過對難例適當引入旋轉、裁剪、縮放等數據增強[20]方法進一步挖掘錨點的多尺度信息,再利用本方法進行優化。

4.2 消融實驗

為了驗證不同取值的α和β對精度所產生的影響,本文在TDP 數據集上針對α和β的取值進行了消融實驗,結果如圖4所示。

由圖4 可知,對于TDP 數據集,放大倍數α=1.9,縮小倍數β=0.3 時mAP@0.5 較高,可能由于該數據集的部分Ground truth 的縱橫比差距較大所造成。但對于大多數數據集來說放大倍數α=1.5,縮小倍數β=0.5 所得結果較為理想。此外,基于3 種典型輕量級網絡YOLOv3-tiny,YOLOv4-tiny 和YOLOv5s以及大型網絡YOLOv3 在Vox 數據集上測試驗證了該方法的有效性。利用相同的錨點在同一網絡上分別進行了3 次測試并取mAP@0.5 平均值,其結果如表2所示。

表2 Vox 數據集在不同網絡的表現Table 2 Performance of different networks on Vox datasets

由表2 可知,所提出的多尺度優化錨值MSA 方法適配多種網絡結構,mAP@0.5 指標都有提升,但隨著網絡結構變得復雜,精度的提升也有所減少,一個可能的原因是在網絡變得復雜時,模型表達能力提升,此時錨點對網絡的影響有所降低。其中,YOLO v3-tiny 和YOLO v4-tiny 需6 個錨點,而YOLO v3和YOLO v5s 需9 個錨點。同時,YOLO v5 作為YOLO 家族的最新代表,其亮點之一是模型訓練過程中可動態學習優化錨點值,可在一定程度上加速模型收斂。YOLO v5s-Aut 為YOLO v5 模型在Vox 數據集上開啟自動學習優化錨點值的測試結果。相比而言,本文提出的尺度變化的錨值優化方法更適用于YOLO v3-tiny 和YOLO v4-tiny 等錨點較少的典型輕量級檢測網絡。

5 結語

本文提出一種基于多尺度優化的目標檢測錨點構造方法,針對場景數據集的特性將生成的錨點進行線性縮放和拉伸,解決了聚類產生的錨點大小差異不顯著且泛化能力差與無法體現YOLO 多尺度輸出優勢的問題。利用該方法在多個典型YOLO 模型和多個場景數據集上進行了測試。數據難以獲得、數據獲取成本高、紅外數據集樣本小、目標少,該方法針對此類數據的優化效果明顯,可顯著提高檢測精度。另外,本方法應用在訓練的預處理階段,不增加模型推理時間。

猜你喜歡
錨點尺度紅外
網紅外賣
閃亮的中國紅外『芯』
基于NR覆蓋的NSA錨點優選策略研究
5G手機無法在室分NSA站點駐留案例分析
5G NSA錨點的選擇策略
財產的五大尺度和五重應對
5G NSA組網下錨點站的選擇策略優化
TS系列紅外傳感器在嵌入式控制系統中的應用
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
宇宙的尺度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合