?

基于Co-PSPNet的輕量級水下魚體圖像分割算法

2024-02-29 04:22李曉雯李海濤高樹靜張俊虎
計算機測量與控制 2024年2期
關鍵詞:魚體注意力像素

李曉雯,李海濤,高樹靜,張俊虎

(青島科技大學 信息科學技術學院,山東 青島 266061)

0 引言

真實水下場景中的魚類語義分割是一項具有挑戰性的任務,也是各種處理步驟的重要前提。水下魚體圖像分割在水下生態研究[1]和水下機器人領域具有重要意義。準確地分割水下魚體圖像可以為生態學研究提供寶貴的數據,并為水下機器人的自主導航和目標識別提供支持[2]。然而,由于水下環境的特殊性,水下魚體圖像分割面臨著一些挑戰和限制[3]。資源有限、光線衰減、水下散射等因素會影響圖像的質量和魚體的可見性,使得傳統的分割方法在水下環境中表現不佳。此外,水下魚體的形變和細節變化也增加了分割的難度。

語義分割方法可分為傳統圖像處理方式和深度學習方式[4-5]兩種。近年來,隨著深度學習和計算機視覺的進展,傳統的圖像分割方法,如閾值分割、邊緣檢測方法、區域生長、區域分裂與合并、邊界分割、基于聚類的方法等[6-8],通常在處理復雜、噪聲較多或者場景變化較大的圖像時效果有限。相比之下,基于深度學習方法能夠通過自動學習特征和語義信息,更準確地處理復雜的圖像分割任務,適應多樣性的場景和物體變化。文獻[9]探討了兩種深度學習模型在低光攝像頭下的魚類庫存監測應用中進行魚類分割的適用性。通過修剪這些網絡并采用不同的編碼器,它們更適用于硬件有限的系統,如遠程操作或自主操作的水下載具。文獻[10]提出了一種雙池聚合注意網絡,通過新穎的位置和通道注意模塊,高效地捕獲長距離依賴關系,從而在提升特征表示的同時顯著改善了分割性能。文獻[11]提出了一種預處理CNN,用于聲納圖像中魚類分割,該預處理CNN與條件隨機場集成,旨在分離學習魚類實例和學習魚類養殖環境。這種方法可以改進聲納圖像中魚類的Mask R-CNN分割,并簡化在魚類養殖環境中應用Mask R-CNN。文獻[12]探索了在嘈雜低分辨率圖像數據集中,采用深度學習和卷積神經網絡(CNN)進行魚類分割的方法。通過使用成像聲納生成的距離-方位位置,實現了魚類與非魚類概率預測,并在丹麥海峽和法羅群島的自采集數據上訓練和測試模型,展示了在小規模數據集上實現滿意性能和泛化能力的技術。

本文旨在研究深度學習方法對真實水下場景中檢測到的魚類進行分割和輪廓提取的適用性。除了關于圖像中存在什么樣的對象以及它們位于何處的信息外,一個成功的語義分割揭示了每個像素屬于哪一類。因此,在圖像中額外提取感興趣目標的輪廓及其覆蓋的簡潔區域成為可能。魚類的精確分割是自動確定形態特征的重要前提,如總長度,進而可用于確定魚類體重。近年來,對于在有限硬件條件下成功應用深度學習算法的需求不斷增長。對于打算使用水下機器人、遙控車輛等應用的需求尤為重要。因此,本文主要研究了輕量級分割模型。具體而言,我們采用了改進版本的“金字塔場景解析網絡(PSPNet,pyramid scene parsing network)”[13]來進行包含魚的圖像分割任務,以實現魚類和背景類的二值分割。PSPNet作為一種高效的語義分割算法,通過利用金字塔池化模塊(PPM,pyramid pooling module)來捕獲不同尺度的上下文信息,取得了顯著的成果。然而,在水下魚體圖像分割中,傳統的PSPNet仍然存在一些限制。

為了進一步提高分割精度和算法的輕量級特性,本文提出了一種基于PSPNet改進的輕量級水下魚體圖像分割算法。首先,我們選擇將主干網絡替換為MobileNetV2[14],以降低算法的參數量和計算復雜度。MobileNetV2是一種輕量級的網絡結構,具有良好的性能和較低的計算開銷,適用于資源受限的環境。其次,為了增強算法對水下魚體圖像的空間信息表示能力,我們引入了CoordConv模塊[15]。CoordConv模塊通過將坐標信息作為額外的輸入通道,使得網絡可以更好地感知和利用像素的位置信息,從而提升分割算法對水下魚體圖像中復雜形態和紋理的建模能力。最后,我們對PSPNet的金字塔池化模塊進行改進,將全局池化后的特征作為全注意力機制網絡的輸入,注意力機制能夠幫助模型更加關注重要的特征,并抑制不重要的特征,從而進一步提升分割的性能。

通過以上改進策略,我們旨在提高水下魚體圖像分割算法的準確性和效率,為水下生態研究和水下機器人應用提供更可靠的工具和方法。在接下來的章節中,將詳細介紹改進的算法,并通過實驗驗證其在水下魚體圖像分割任務中的優越性能。

1 水下魚體語義分割模型

1.1 改進的Co-PSPNET網絡

改進的Co-PSPNET算法主要分為4個部分,分別為主干網絡、CoordConv模塊、基于CBAM注意力機制的金字塔池化模塊、解碼器。

算法框架結構如圖1所示。

第一部分為主干網絡。假設輸入圖片的尺寸為H×W(高度×寬度),圖片經過主干網絡MobileNetV2進行特征提取。MobileNetV2的卷積層在處理圖片時,會進行下采樣,通常會將輸入圖片的尺寸縮小為H/32×W/32。通過初始卷積層和多個Bottleneck塊進行特征提取。每個Bottleneck塊包含1×1的擴展卷積層、3×3的深度可分離卷積層和1×1的投影卷積層,最后通過上采樣將特征圖恢復到輸入圖片大小。

第二部分為CoordConv模塊。首先,CoordConv模塊生成一個與特征圖大小相同的坐標網格。這個坐標網格的形狀是H×W,每個像素點對應一個二維坐標 (x,y)。接下來,CoordConv模塊將坐標網格的 (x,y)坐標信息分別擴展為兩個3維張量,分別是形狀為1×H×W的X坐標張量和Y坐標張量。然后,CoordConv模塊將上述生成的X坐標張量和Y坐標張量分別與原始特征圖進行通道拼接。這樣,特征圖的每個像素點都會添加兩個額外的通道,分別對應該像素點的X坐標和Y坐標信息。最終,特征圖的形狀變為 (C+2)×H×W,其中C個通道對應于原始特征圖的通道,而多出來的 2 個通道是X坐標和Y坐標信息。

第三部分是基于CBAM注意力機制的金字塔池化模塊。針對CoordConv模塊輸出特征圖的全局以及 1/4、1/9、1/36 子區域分別進行全局平均池化操作。每個池化后,特征向量經過CBAM模塊處理,通過通道注意力和空間注意力分別學習通道權重和空間權重,分別對不同通道的特征和不同空間位置的特征進行加權,以增強重要通道和位置的特征表示能力。

第四部分為解碼器,經過金字塔池化模塊后得到的特征圖,通過解碼器進行上采樣和融合操作,以恢復原始圖像尺寸H×W的語義分割結果。解碼器使用雙線性插值的方式來實現上采樣,并與CoordConv模塊輸出的特征圖在通道維度上進行拼接,實現高層語義信息和低層空間信息的有機結合。

最后,解碼器生成的語義分割結果通過1×1卷積核的卷積層進行通道維度上的降維操作,最終輸出的通道數為類別數量,用于生成語義分割的預測結果。這樣,模型就可以將每個像素點分類到對應的語義類別,并完成整個語義分割任務。

1.2 特征提取網絡

傳統的PSPNet主干網絡使用的是ResNet等較為復雜的網絡結構,具有較高的計算復雜度和參數量。為了實現輕量級水下魚體圖像分割算法,本算法通過實驗對比多種不同的輕量級分類網絡見3.4節,我們選擇了MobileNetV2作為替代方案。MobileNetV2具有輕量級的結構和高效的特征提取能力,能夠在保持準確性的同時減少計算開銷,適應資源受限的水下環境。

MobileNetV2[14]是一種輕量級的卷積神經網絡架構,目的是在移動設備和嵌入式系統上實現高效的圖像識別和計算。它是Google團隊在2018年提出的MobileNet系列的第二個版本。MobileNetV2的設計目標是在保持高精度的同時,顯著減少模型的大小和計算復雜度。它采用了一系列的設計策略和技術,以實現這一目標。下面是MobileNetV2的一些關鍵特點和技術:MobileNetV2引入了一種稱為“Inverted Residuals”(反向殘差模塊)的模塊,它包含了輕量級的深度可分離卷積(Depthwise separable convolution)[16]。這種模塊的結構與傳統的殘差模塊相反,先使用1×1的卷積進行降維,然后應用深度可分離卷積進行特征提取,最后再使用1×1的卷積進行升維。這種結構能夠有效地減少參數數量和計算復雜度。MobileNetV2引入了一個寬度乘法器,用于動態地調整模型的寬度(即通道數)。通過調整寬度乘法器的值,可以在精度和計算復雜度之間進行權衡。較小的乘法器值將減少模型的參數和計算量,但可能會降低模型的性能。MobileNetV2可以適應不同的輸入分辨率,從而在不同的應用場景中靈活應用。通過改變輸入圖像的分辨率,可以在模型大小和推理速度之間進行權衡。MobileNetV2中的深度可分離卷積具有線性瓶頸(linear bottlenecks)特性,即在升維和降維的過程中使用了線性激活函數。這可以避免非線性激活函數引入的額外計算開銷。

總體而言,MobileNetV2通過結合多種優化策略和技術,實現了在移動設備上高效而準確的圖像識別。它在參數數量和計算復雜度方面較小,適用于資源受限的環境。

1.3 CoordConv模塊

由于在水下環境中,魚體與背景之間的邊界通常模糊不清,邊緣信息不明顯。通過引入位置信息,CoordConv模塊[15]可以幫助算法更好地捕捉到魚體邊界的位置和形狀,提高對魚體的精確分割能力。

傳統的卷積操作在處理圖像時只考慮了像素的局部鄰域信息,而忽略了像素的位置信息。然而,對于水下魚體圖像分割這樣的任務,像素的位置信息對于區分不同魚體、準確分割邊界等至關重要。CoordConv模塊是一種通過引入坐標信息的卷積操作,能夠提供更豐富的空間上下文信息,對于處理水下魚體圖像中的形態變化和紋理細節非常有幫助。

CoordConv模塊的基本思想是在卷積操作的輸入特征圖中增加兩個額外的通道,分別表示像素的橫坐標和縱坐標。這樣,每個像素的輸入特征向量就不僅包含了原始圖像的顏色值,還包含了其在原始圖像中的位置信息,如圖2所示。在CoordConv模塊中,這兩個額外的通道被稱為X通道和Y通道。

圖2 兩種卷積層

具體地,CoordConv模塊可以表示為以下的數學形式,如公式(1)、(2)所示:

(1)

(2)

其中:Xi和Yi分別表示像素的歸一化橫坐標和縱坐標,X和Y分別表示像素的原始橫坐標和縱坐標,W和H分別表示圖像的寬度和高度。通過將歸一化的坐標值作為額外的通道輸入到卷積操作中,CoordConv模塊可以使網絡更好地感知和利用像素的位置信息。

通過在我們的改進算法中引入CoordConv模塊,我們能夠充分利用水下魚體圖像中的位置信息,增強算法的魯棒性和分割精度。該模塊的引入為我們的輕量級水下魚體圖像分割算法提供了一種有效的機制,使得算法能夠更好地適應水下環境下的圖像特點和挑戰,提高分割的準確性和穩定性。

1.4 注意力機制

傳統的神經網絡在處理輸入時,對所有的特征都以相同的權重進行處理,無法有效地區分和利用不同特征之間的重要性。而注意力機制通過動態地調整特征的權重,使網絡能夠自適應地關注輸入中具有更高重要性的部分。本算法通過實驗對比多種不同的注意力機制見3.5節,發現引用“卷積塊的注意力模塊(CBAM,convolutional block attention module)”[17]對該算法性能提升效果最好。如圖3所示,CBAM是一種綜合了空間注意力和通道注意力的注意力模塊,用于增強卷積神經網絡對空間和通道間相關性的關注,它通過自適應地調整特征圖的權重,使網絡能夠更有針對性地利用輸入特征中的重要信息。

圖3 CBAM注意力機制

空間注意力用于關注輸入特征圖的空間相關性。它通過對特征圖在空間維度上進行池化操作,得到每個空間位置的特征向量。然后,通過全連接層學習每個位置的權重,從而獲取每個空間位置的重要性。最后,通過廣播乘法將空間注意力權重與特征圖進行逐元素相乘,使得網絡能夠在不同空間位置上有針對性地調整特征的權重。為了匯總空間特征,主要采用了全局平均池化和最大池化這兩種方法,以利用不同的信息。

對于一個輸入特征F,其尺寸為H×W×C。首先,我們對其進行全局平均池化和最大池化,分別得到兩個 1×1×C的通道描述。接著,這兩個描述分別經過一個共享的兩層神經網絡處理:第一層包含C/r個神經元,激活函數為 Relu;第二層包含C個神經元。此后,得到的兩個特征進行相加,經過 Sigmoid 激活函數產生權重系數Mc。最終,通過將權重系數Mc與原始特征F相乘,得到按比例縮放的新特征,詳見公式(3):

Mc(F)=σ{MLP(Poolavg(F))+MLP[Poolmax(F)]}=

(3)

通道注意力用于聚焦輸入特征圖中的通道相關性,首先通過在通道維度上進行全局平均池化操作,提取每個通道的全局特征;然后,通過兩個全連接層學習每個通道的權重,從而獲取每個通道的重要性;最后,通過廣播乘法將通道注意力權重與特征圖進行逐元素相乘,使得網絡能夠自適應地調整通道的權重。

與通道注意力類似,對于一個輸入特征F,其尺寸為H×W×C。首先分別對通道維度進行平均池化和最大池化操作,以獲得兩個H×W×1 的通道描述,然后將這兩個描述在通道上連接在一起。接下來,通過一個 7×7 的卷積層,使用 Sigmoid 作為激活函數,計算出權重系數Ms。最終,將權重系數與特征F'相乘,得到經過縮放的新特征,具體參考式(4):

MS(F)=σ{f7*7[Poolavg(F),Poolmax(F)]}=

(4)

通過綜合空間注意力和通道注意力,CBAM注意力模塊能夠在卷積網絡的每個塊(block)中增加對空間和通道相關性的關注。這種注意力機制使網絡能夠更好地捕捉輸入特征中的關鍵信息,減少對無關信息的依賴,從而提升模型的性能和泛化能力,如圖4所示。

圖4 通道注意力和空間注意力模塊

2 水下魚體分割實驗

2.1 實驗環境

實驗在Linux操作系統下,基于GPU、PyTorch和CUDA框架完成的,具體參數如表 1所示。

表1 實驗平臺軟硬件配置

2.2 數據集介紹

在這項研究中,網絡使用SUIM[18]數據集進行了評估。SUIM數據集共包含包括魚類在內的多個類別的1 525張水下圖像及其真實語義標簽。SUIM為每個類別提供帶有單獨注釋的測試拆分,它還包括一個包含110張圖像的測試集。因此,在實驗中,我們使用魚類和其他脊椎動物類別,并將這些數據用于魚類分割。來自SUIM數據集的示例圖像如圖5所示。

圖5 SUIM樣本圖像與相應的分割標簽圖像。

從魚類和其他脊椎動物類別中挑選出魚類圖像僅738張,為提高模型精度和增加模型魯棒性,對原始數據集進行樣本增強[19],采用了基于幾何變換、顏色空間變換2類數據擴充方案,具體方法包括水平翻轉、垂直翻轉、隨機旋轉、放大縮小、調整亮度和對比度這5種擴充方式,結果如圖6所示。擴充后數據集總數為4 428張,其中訓練集、驗證集和測試集按照8∶1∶1進行分配。

圖6 部分SUMI數據集數據擴充圖片

2.3 實驗評價指標

為驗證本文方法的有效性,采用以下評價指標:平均像素準確率(MPA,mean pixel accuracy)、平均交并比(MIoU,mean intersection over union)、像素準確度等,同時使用參數量、FLOPS、模型的大小來衡量模型的復雜度。

MPA:平均像素準確度是像素準確度的一種改進指標,考慮了每個類別在圖像中的出現頻率。它計算每個類別的像素準確度,然后對它們求平均,計算如式(5)所示:

(5)

MIoU:交并比(IoU,intersection over union)是衡量兩個集合重疊程度的指標。在語義分割中,交并比是指預測的分割結果與真實分割結果的交集與并集之比。平均交并比計算每個類別的交并比,然后對它們求平均,計算如式(6)所示:

(6)

式中,k表示像素的類別數;pii表示實際類別為i、預測的類別也為i的像素的數目;pij表示實際類別為i、預測的類別為j的像素的數目;pji表示實際類別為j、預測的類別為i的像素的數目。

準確率(accuracy)表示預測結果中正確的占總預測值的比例,如式(7)所示:

(7)

式中,TP為被劃分為正類且判斷正確的個數;TN為被劃分為負類且判斷正確個數;FP為被劃分為正類且判斷錯誤的個數;FN為被劃分為負類且判斷錯誤個數。

2.4 訓練參數及模型參數設置

在訓練過程中,我們采用了以下參數設置。我們選擇了批量大小為16,每次迭代使用16個樣本進行模型參數的更新。我們的模型經過了300輪的訓練,每一輪中模型遍歷整個訓練集一次,并進行參數更新。為了優化模型,我們采用了Adam優化算法,它是一種自適應學習率的優化算法,它結合了梯度的一階矩估計(均值)和二階矩估計(方差),可以更有效地調整學習率,加速模型的收斂過程。初學習率設置為0.01,并通過余弦退火(cosine annealing)的方式,在訓練過程中降低學習率。

由于水下魚體語義分割是一個二分類問題,只有魚體和背景兩個類別,所以我們采用了二分類交叉熵損失函數,計算如式(8)所示。二分類交叉熵損失函數可以度量模型預測結果與真實結果之間的差異,并推動模型學習到更準確的預測。通過最小化交叉熵損失,模型能夠逐漸調整權重和偏差,以使預測結果與真實結果盡可能接近。

(8)

式中,yi表示樣本i的真實值,pi表示樣本i預測為正類的概率,N為圖像像素點的總數目。

2.5 可視化訓練過程

在我們的訓練過程中,我們追蹤了損失函數隨著訓練迭代次數的變化。圖7是在預先訓練好的MobileNetV2網絡模型的基礎上添加水下魚體樣本進行再訓練過程中的loss變化圖。觀察圖7發現,初始階段,損失函數迅速下降,表明模型在學習數據的特征和模式;在中期階段,我們可以觀察到損失函數出現輕微的震蕩或波動,這可能是由于模型在權衡不同樣本和特征的時候產生了一些波動,但整體上保持在一個相對穩定的范圍內;最終,損失函數在一個穩定的范圍內波動,不再有明顯的下降或增加趨勢,說明在當前訓練參數及模型參數設置下,分割網絡模型的性能也就接近最優。

圖7 損失函數變化圖

3 實驗結果與分析

3.1 模型性能實驗結果對比

在本研究中,我們比較了5種不同模型的性能,即UNet[20]、DeepLabv3+[21]、HRNet[22]、PSPNet和Co-PSPNet,對水下魚體分割數據集進行訓練、驗證和測試,測試集的mIoU、mAP和Accuracy結果如表2所示。

表2 不同模型的測試結果

由表2可知,Co-PSPNet模型的MIoU達到92.21%,相比于常用的語義分割網絡模型UNet、DeepLabv3+、HRNet和PSPNet分別高出5.05、2.29、0.57和1.64個百分點。首先,Unet模型使用VGG16作為特征提取器,在mIoU、mPA和Accuracy方面表現良好,但相較于其他模型,其性能稍顯不足。DeepLabv3+模型采用了Xception作為特征提取器,并取得了出色的性能,超越了Unet模型在各項指標上的表現。HRNet模型以hrnetv2_w18作為特征提取器,獲得了相對較高的得分,這歸功于其高分辨率的特征融合和多尺度處理能力。PSPNet模型利用Resnet50作為特征提取器,雖然在mIoU和Accuracy方面略低于其他模型,但在mPA方面表現相對較好。然而,Co-PSPNet模型采用了輕量級的MobileNetV2作為特征提取器,并在所有評價指標上取得了最佳性能。這表明我們的改進措施在水下魚體分割任務中是有效的。綜上所述,通過對這些模型的性能進行比較分析,Co-PSPNet模型以其出色的性能在水下魚體分割任務中脫穎而出。

3.2 模型復雜度比較

在本研究中,我們比較了5種不同模型的復雜度,即UNet、DeepLabv3+、HRNet、PSPNet和Co-PSPNet。表3總結了這些模型的參數數量、浮點運算數(FLOPs)以及模型大小。相比之下,我們提出的Co-PSPNet的模型在復雜度方面表現出明顯的優勢。我們的模型具有更少的參數數量(僅為3.3 M)、更低的FLOPS(760.14 M)和更小的模型大小(13.5 MB)。這意味著我們的模型在計算資源和存儲空間方面要求較低,更加輕量級,適合在資源有限的水下環境中應用。

表3 5種模型的復雜度對比

3.3 分割結果可視化

各模型部分輸出結果可視化如圖8所示,從圖中可以清楚地看出,在水下魚體語義分割任務中,Co-PSPNet模型相較于UNet、DeepLabv3+、HRNet和PSPNet模型,呈現出更全面、準確的檢測結果。

首先,通過觀察圖8中的可視化結果,我們可以發現改進的模型相對于UNet和DeepLabv3+模型,能夠更好地提取和利用特征信息,提供更精確的分割結果。

其次,相較于HRNet模型,改進的模型在水下魚體語義分割任務中展現出更好的綜合性能。盡管HRNet模型在捕捉圖像中的全局和局部信息方面表現出色,但在魚體的特征表達和語義分割方面存在一定的限制。相比之下,改進的模型通過引入新的特征提取和融合注意力機制,能夠更好地結合全局和局部信息,提高魚體語義分割的準確性和魯棒性。

最后,與PSPNet模型相比,改進的模型在處理不同尺度魚體時具有更好的適應性。水下環境中,魚體的尺寸和形狀可能存在較大的變化。PSPNet模型使用金字塔池化機制來捕捉不同尺度的上下文信息,但在處理尺度差異較大的魚體時可能存在一定的限制。改進的模型通過引入CoordConv模塊和注意力機制,能夠更好地處理尺度變化,提高魚體語義分割的多樣性和泛化能力。

綜上所述,通過圖8的可視化結果,我們可以得出結論:在水下魚體語義分割任務中,Co-PSPNet具有更全面、準確和穩健的性能。這些結果為改進模型在水下生態研究、水下監測和保護等領域的應用提供了堅實的基礎。未來的研究可以進一步探索改進模型的潛力,并將其應用擴展到更廣泛的水下場景,如海洋生物學研究、水下資源勘探和水下遺址保護等,為未來水下目標檢測和分割技術的發展提供了新的思路和方向。

3.4 不同主干網絡的對比實驗

為了能夠在有限硬件條件下進行魚體圖像分割,我們通過選擇輕量級主干網絡對PSPNet網絡進行改進,主要對比了ShuffleNetV1[23]、ShuffleNetV2[24]、MobileNetV1[25]、MobileNetV2、MobileNetV3[26]網絡,并在SUIM數據集上進行了實驗。

從表4的結果來看,將MobileNetV2網絡作為PSPNet的主干網絡獲得了最好的性能。此外,在參數量和模型大小方面也具有優勢。雖然在FLOPs方面相對于ShuffleNetV2和MobileNetV3稍有遜色,但綜合來看,MobileNetV2網絡在PSPNet中表現較為出色。

表4 不同主干網絡性能對比

3.5 不同注意力機制的對比實驗

注意力機制本質是通過計算相應的權重值,讓卷積神經網絡識別出需要重點關注的有用特征向量,忽略不重要的特征信息。從而在避免無用特征干擾擬合結果的同時,還對運算速度有一定的改善。我們基于MobileNetV2主干網絡,在特征金字塔后面引入3個不同的注意力機制進行對比,分別為“坐標注意力機制(CA,coordinate attention)”[27]、“全局注意力機制(GAM,global attention mechanism)”[28]、CBAM注意力機制。

通過表5中對比實驗結果,我們可以得出以下結論:引入注意力機制可以有效地提升水下魚體圖像分割算法的性能。不同的注意力機制在性能上有所差異,CBAM注意力機制表現出最佳的性能。這表明加入通道和空間注意力可以更好地捕捉到關鍵魚體特征,提高分割的準確性和魯棒性。

表5 不同注意力機制性能對比

3.6 不同模塊的消融實驗

為證明MobileNetV2、CoordConv模塊、CBAM注意力機制等各模塊的有效性,利用控制變量法設計了4組消融實驗,以mIoU、mAP和Accuracy作為實驗評價指標,實驗數據如表6所示。其中采用的是預訓練的MobileNetV2主干網絡。

表6 不同模塊的消融實驗結果

4 結束語

在本研究中,我們提出了一種基于Co-PSPNet網絡的輕量級水下魚體圖像分割算法,通過將PSPNet的主干網絡替換為MobileNetV2,加入CoordConv模塊和注意力機制模塊,我們成功地在保證精度的同時降低了網絡的計算復雜度和參數量,從而提高了算法的效率,使其能夠更好地適應水下環境的特點。

通過在公開的水下魚體圖像數據集上進行大量實驗,我們驗證了我們提出的算法在魚體圖像分割任務上的優越性能。實驗結果表明,我們的方法能夠有效地從水下圖像中提取出魚體的準確輪廓,為水下生態研究和水下機器人的應用提供了重要支持。

盡管我們的算法取得了令人滿意的結果,但仍存在一些改進的空間。一個方向是實現多種類的分割,即將算法擴展到識別和分割水下環境中的多種魚類,當前的研究側重于魚體圖像分割任務,但在實際應用中,可能會遇到多種魚類共存的情況,因此,將我們的算法擴展到多種類的分割將進一步提高其實用性和適應性。還有就是可以再進一步優化注意力機制的設計,以提高網絡對關鍵魚體特征的關注程度。

猜你喜歡
魚體注意力像素
趙運哲作品
像素前線之“幻影”2000
讓注意力“飛”回來
軸流泵內魚體的運動行為與撞擊損傷分析
淡水魚水平往復振動頭尾定向輸送方法
淡水魚腹背定向裝置設計及試驗
“像素”仙人掌
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合