?

一種基于視頻流的傳送帶連包異常監測方法

2023-11-16 08:17劉治國勵坤宇
制造業自動化 2023年10期
關鍵詞:箱包傳送帶距離

劉治國,郝 超,陳 樂,勵坤宇

(寧夏銀方智能科技有限公司,寧夏 750000)

0 引言

食品飲料行業相比其他行業在貨物供應上具有單日訂單量大,產品種類多等特點。因此一套高效率的分揀系統對于保障貨運物流具有非常重要的意義。尤其在大型倉庫中,由于產品種類多,貨物依類別放置,占用面積大等特點,使用基于傳送帶的貨物分揀系統能夠顯著提高分揀效率。

然而,當貨物在傳送帶上運動分揀過程中,由于箱體的體積、重量、形狀、包裝材質的不同,都會導致頻繁發生貨物連包、碰撞情況。不僅會引起產品包裝破損,而且會極大地影響貨物分揀效率,甚至導致貨物分揀錯誤發生,導致效率和正確性降低。

傳統傳送帶依賴大量傳感器完成連包檢測。但是這種檢測方式過程復雜、可靠性低,并存在大量誤檢測的情況。伴隨著GPU和大數據技術的發展,深度學習在計算機視覺領域[1-2]有著飛速發展,在物體分類、識別領域已經超過了人類水平,目標檢測和跟蹤作為計算機視覺領域的一大分支,與傳統使用特征檢測和匹配進行定位算法相比,具有檢測精度高,速度快等優點。為此,本文采用基于視頻流數據處理的方法,對貨物的距離、狀態進行的實時監控,實現連包情況出現時的預警,避免碰撞發生。

作為圖像理解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標追蹤、圖像描述、事件檢測和活動識別等更復雜更高層次的視覺任務的基礎。

近十年來,由于算法和GPU的極大發展,深度學習方法逐漸取代傳統的特征檢測方法成為計算機視覺的主要研究方向,并取得了極大的成就,就目標檢測發展而言,主要集中在兩個方向:Two-stage算法如SPP-Net(空間金字塔池化網絡)[12]、FPN(特征金字塔網絡)[11]和R-CNN系列[15];One-stage算法如YOLO[7-9]、SSD[14]和RetinaNet[13]等。兩者的主要區別在于:Two-stage算法需先生成預選框,然后進行細粒度的物體檢測;而One-stage算法會直接在網絡中提取特征來預測物體分類和位置,因此速度更快,適用于實時目標檢測,但性能上相對較弱。

Multiple Object Tracking(MOT)多目標檢測在計算機視覺領域具有舉足輕重的位置。尤其是在行人追蹤檢測領域具有非常重大的實際應用價值。隨著近年來深度學習的發展,tracking-by-detection這種追蹤檢測方式越來越占主流位置,SORT(Simple Online And Realtime Tracking)在目標檢測基礎上使用卡爾曼濾波算法在目標追蹤過程中考慮到幀之間的物體相對位置,進行IOU的計算,減少了目標ID的實際切換次數。但是當物體有遮擋或傳送帶速度發生變化時候,目標容易丟失。Deep SORT方法在SORT基礎上考慮到了目標表面特征,使用特征作為卡爾曼濾波位置估計的一種額外補充,減少了目標丟失和切換ID的次數,在實際使用中更具實際意義。

YOLO是一種基于深度神經網絡的對象識別和定位的One-stage算法,其最大的特點是運行速度很快,可以用于實時系統,因此在目標檢測領域得以廣泛應用。Bochkovskiy A等人使用YOLOV4[3]在AP50指標上達到64.2,精確度和檢測速度比YOLOV3算法[7-9]分別提升了10%和12%。

本文使用深度學習的方法對生產線實時處理,解決傳送帶上箱包的自動檢測與跟蹤問題。在采用YOLOv4作為目標檢測器的基礎上,考慮Deep SORT作為SORT算法的改進版,在保證較高跟蹤速率的同時有效地減少了45%的無效ID切換次數[4],因此將其作為目標跟蹤算法,實現視頻流中多目標的檢測與跟蹤,并利用單應性變換進行視角變換,實現箱包距離檢測。檢測預警原理圖如圖1所示。

圖1 連包檢測預警流程圖

1 目標檢測

如圖2所示,YOLOV4目標檢測框架包括Input,Backbone,Neck,Prediction Head四個部分。

圖2 YOLOv4的主體框架

在Input部分,主要是Image,Patches作為輸入;在Backbone部分,首先利用CSPDarknet53對視頻中的逐幀圖像進行特征層提取,CSPDarknet53由一系列堆疊的殘差網絡結構組成,這種堆疊能夠增加相當的深度提高準確率;在Neck部分,YOLOv4使用了SPP和PAN作為特征金字塔結構,SPP結構利用不同尺度的最大池化進行處理以分離最重要的出上下文特征,PAN結構縮短特征信息在低層與高層之間的傳播以實現多通道特征融合;在Head部分,對提取的多個特征層進行目標檢測,通過解碼的方式得到邊界框的位置、置信度和類別預測。

2 自動跟蹤算法

對通過目標檢測出的箱包,采用Deep Sort作為自動跟蹤算法[5-6]。Deep SORT中,使用CNN網絡在大規模箱包數據集進行訓練并提取特征,增加網絡對丟失和遮擋的魯棒性,并有利于運過過程中的箱包特征關聯。

作為Deep Sort的輸入,使用八維空間狀態變量表征目標在某個時刻的狀態?;跔顟B參數,采用包含勻速模型和線性觀測模型的Kalman濾波器實現目標軌跡的預測與更新。為了得到預測Kalman狀態和新實際測量值之間的關聯,將目標運動和外觀信息相結合,利用相似性指標度量。

對于不確定性較低的目標運動,使用以下的馬氏距離度量:

為了彌補相機運動引起大量馬氏距離的無法匹配問題,引入最小余弦距離度量外觀信息:

在構建關聯問題時,引入一個權重λ作為鏈接兩個相似性度量的紐帶:

距離度量對于短期預測和匹配效果很好,而外觀信息對于長時間丟失的軌跡而言,匹配度度量的比較有效。在這里,由于攝像機固定,取λ=1;否則,當存在大量的相機運動時,λ=0。

該算法還提出了一種級聯匹配的策略來提高匹配精度,主要由于當一個目標被遮擋很長時間,Kalman濾波[10]的不確定性就會大大增加,并會導致連續預測的概率彌散,假設本來協方差矩陣是一個正態分布,那么連續的預測不更新就會導致這個正態分布的方差越來越大,那么離均值歐氏距離遠的點可能和之前分布中離得較近的點獲得同樣的馬氏距離值。這可以緩解因為表觀突變或者部分遮擋導致的較大變化但也有可能導致一些新產生的軌跡被連接到了一些舊的軌跡上。在進行自動跟蹤前,需要進行深度外觀描述。使用CNN在大規模重識別數據集上學習目標鑒別網絡,這對于區分不同的目標至關重要。因此,Deep Sort能夠減少大量的無效ID交換數量,有效地提高了跟蹤性能。

3 鏡頭的畸變校準

假定存在三維空間坐標(xi,yi,zi)到二維圖像坐標(ui,vi)的映射關系,構建映射函數g:,該映射表示為投影過程(ui,vi)=g(xi,yi,zi)。但是,如果忽略真實世界場景在z方向上的空間范圍,并假設在圖像上看到的每個點都屬于z=0平面,則對應的映射關系為:

其中H=(hij)∈代表可逆的單應性矩陣。為了獲得真實世界坐標(xi,yi)和像素坐標(ui,vi)的對應關系,重寫上述等式后轉化成以下形式:

由此,單應性矩陣H的未知數可以通過求解以下線性方程組得到:

在這種情況下,單應性向量h屬于矩陣(AT·A)的核:

其中A是2N×9的矩陣。由于單應性矩陣H具有齊次性,因此只有8個自由度只需要4對特征匹配點(ui,vi)(xi,yi)即可求得唯一解。計算(AT·A)的特征值和特征向量,與最小特征值相關的單位特征向量即為單應性向量h。通過這種方式,得到單應性矩陣H中的9個系數hij,可以實現像素坐標(ui,vi)到真實世界坐標(xi,yi)的映射變換。

4 測試與驗證

4.1 實驗背景

如圖3所示是分別截取安裝在大型傳送帶倉庫的分別位于右下角(左圖)和左下角(右圖)的攝像頭的2段視頻內容。攝像頭分辨率為1280×720,幀率為60幀,視頻時長分別為360s和216s。從視頻截圖內容可以非常清楚看到箱子在傳送帶上的運動過程和分揀情況。

圖3 分揀傳送帶

4.2 模型訓練

4.2.1 訓練數據的標注

分別對采集的2段視頻進行采樣,采樣幀間隔設置為10,分別獲取累計588張和500張樣本圖片。

分別對采樣的圖片進行標注,由于傳送帶遠端距攝像頭較遠,CNN網絡不能提取到有效的圖片特征向量,因此只對攝像頭近端一側進行標注。標注結果如圖4所示。

圖4 訓練數據標注

圖5 學習率下降曲線

圖6 損失下降曲線

最終得到對應的訓練數據圖片(ImageJPEG)和訓練數據標簽文件(Annotations)。

4.2.2 YoloV4模型的訓練

對標注好的圖片和對應的聲明文件分別送入到YOLOV4的模型框架中進行訓練。使用2張GTX 1080Ti顯卡對模型進行訓練,初始學習了設置為1e-3,訓練過程中通過余弦模擬退火算法自動調整學習率,其中模型預熱Epoch占總Epoch的20%。使用典型的Yolo系列頭部損失函數并使用Adam算法對整個神經網絡模型進行優化。

MAP是目標檢測中衡量識別精度的重要指標,用來綜合指示檢測過程中的精確度、召回率。整個試驗環境下,由于類別單一,MAP與在開放數據集如ImageNet、Coco測試得到的MAP不具有明顯對比性,達到91%。這也反應出模型在測試視頻數據集效果良好,為后續目標追蹤提供了較好基礎。

4.2.3 箱體特征模型訓練

度量學習是學習目標相似度的一種非常重要的手段,一般使用歐式距離或余弦相似度來衡量CNN網絡提取的圖片特征。在有監督學習方向,Triple Loss作為經典的度量學習損失函數目標,需要在特征域拉近相同或相似箱體的距離,并且拉遠不同箱體的距離。在訓練過程中,需要選取相似箱體的一對圖片,其中一張圖片設置為Anchor樣本,另外選取一張圖片作為positive樣本,并另外選取一張其他類別的圖片作為negative樣本,實際上這種數據選取方式難以使模型快速收斂,需要花費大量時間來訓練,并難以達到理想效果。因此需要使用難樣本數據挖掘方式首先進行樣本挖掘,再使用Triple loss進行模型訓練,使得模型收斂,通常在設置合理閾值的方式下,最終并不以最終的損失函數結果來判斷模型是否好壞,而是以樣本挖掘程度或是否能夠再挖掘難樣本來評判模型是否合理可用。

4.3 測試結果

使用訓練好的模型,對視頻進行檢測。效果如圖7所示。

圖7 檢測與跟蹤效果

4.3.1 鏡頭畸變校準

為了得到單應性矩陣H,因此分別對兩組圖片中的4對特征點進行標志,以對應到真實世界坐標系。4對特征點的標記如下所示:

上述對應坐標點的位置分別被標注在下圖中,如圖8所示,經過單應性變化的圖片如圖9所示。

圖8 選取的4對特征點

圖9 鏡頭畸變校準后的效果圖

4.3.2 連包異常監測及預警

將兩個箱子中心點距離小于50cm作為判別閾值,當兩個箱子距離小于閾值時出現紅線并標注出預警距離,檢測效果如圖10所示。

圖10 連包異常監測及預警效果圖

從圖9中可以看出所以在和數據集標注區域相同的箱子100%被正常檢測出,追蹤過程中,無效ID切換率被控制在1%內。實際運行過程中,傳送帶時間每天運行時間達到9小時,由于連包現象導致分揀錯誤,并伴隨大量傳送帶臨時暫停,使用Tensorflow sharp部署訓練好的模型進行追蹤預警后,并通過預警信息反饋至傳送帶控制系統,使得每天分揀時間降至8小時,有效提高工作效率。

5 結語

本研究從視頻流的監測數據出發,利用先進的計算機視覺技術,實現多目標的自動識別及跟蹤、異常監測及預警。技術路線充分考慮了傳送帶上運輸的箱包特征,不僅有效進行識別與跟蹤,而且在其基礎上能夠保證實時性要求,充分體現了基于視頻流的多目標識別跟蹤及異常監測系統研究的創新性。

該研究的創新點主要集中于以下兩個方面:

1)無需使用傳統的雷達探測或紅外探測,只需要使用攝像頭和監測視頻,即可利用計算機視覺技術實現傳送帶上箱包的異常預警任務;

2)提供了一種識別連包異常情況的新思路,舊思路往往采用直接訓練識別出多箱包相連的情形,但這種情況下難以分辨綁在一起的多個箱包,因此新思路采用計算兩兩箱包之間距離的方法,當距離低于閾值時進行預警。

該研究的技術難點主要集中于以下三個方面:

1)鏡頭安裝位置較低,會導致監測過程中出現遮擋的箱體無法有效被跟蹤,當出現無效跟蹤時可能出現錯誤的異常報警,同時鏡頭畸變校準后也會產生一定的誤差;

2)訓練數據的樣本量不夠,由于人工標注非常耗時耗力,因此每次訓練只選用了五百多張圖片作為訓練數據。盡管測試效果已經很不錯,但如果能夠增大樣本量到3000-5000張,可能會使效果有進一步提升;

3)模型權重相對較大(訓練出的模型權重為246MB),包含6000多個參數,相比于百兆以下的輕量級權重顯得有些大,如果能夠收集更多的訓練數據,可以采用YOLOv4-tiny輕量級模型進行訓練,權重文件僅有25MB,包含600多個參數。

猜你喜歡
箱包傳送帶距離
淺探傳送帶模型的分析策略
箱包面料圖案設計的新焦點探討
算距離
論箱包設計中的褶皺及其工藝表現
傳送帶模型中摩擦力的判斷
箱包展廳照明設計
每次失敗都會距離成功更近一步
皮革的二次創意在箱包設計中的運用
愛的距離
距離有多遠
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合