?

船舶輻射噪聲分類卷積神經網絡的可視化分析和卷積核剪枝

2024-01-27 07:20徐源超蔡志明孔曉鵬
電子與信息學報 2024年1期
關鍵詞:線譜正確率可視化

徐源超 蔡志明 孔曉鵬 黃 炎

(海軍工程大學電子工程學院 武漢 430033)

1 引言

船舶輻射噪聲分類是目前水聲目標探測領域的重要課題之一。深度神經網絡,特別是卷積神經網絡(Convolutional Neural Networks, CNN),已在船舶輻射噪聲分類任務中得到廣泛研究[1-6]。CNN可直接用來提取時域信號中的船舶分類特征[1,2]。Gammatone濾波器組被用于初始化第一層卷積核,并構建以時域信號為輸入的端到端的CNN,該方法結合了人耳聽覺原理設計分類模型[1]。不同尺寸的卷積核被用于處理時域信號并構建CNN[3]。CNN也可從LOFAR中提取目標特征信息[4,5]。卷積自編碼器可以無監督地自動提取目標特征[4]。包括LOFAR在內的多種譜融合特征被輸入到CNN中實現船舶分類[6]。然而由于水聲目標數據集小樣本、非均衡等特點,模型的泛化性能未見明顯改善。另外,數據驅動得到的CNN模型的可解釋性較差,模型得到的知識難以人為掌握??梢暬治鍪怯^察模型所學習到的“知識”的一種技術手段?;陬I域知識并結合可視化結果為模型改進提供了一條技術路徑。

神經網絡中權值的物理意義往往難以解釋。對于CNN模型,可直接可視化學習到的淺層卷積核權值。圖像任務中,淺層的卷積核組可以被解釋為一組Gabor濾波器[7]。然而這種可視化方法對深層的卷積核無能為力,因為深層單元的輸入是原始輸入的復雜的非線性變換。在輸入空間觀察模型是可視化分析的重要途徑,即基于模型重建輸入空間?;诜淳矸e網絡可以重建輸入空間[8]。對于一個給定的輸入樣本,反卷積網絡針對指定的神經單元重建樣本。重建樣本反映此神經單元在給定的輸入樣本中“觀察”到的東西。導向反向傳播(Guided Backward Propagation, GBP)方法改善了重建效果[9]。上述兩種重建輸入空間的方法是依賴樣本的。輸入空間優化(Optimization in Input Space,OIS)方法則不依賴于樣本[10],此方法輸入一個隨機樣本,然后基于梯度下降優化輸入空間,使指定神經單元的響應值最大化。反卷積網絡與輸入空間優化的方法可以結合使用并相互印證[11]。

LOFAR譜中包含豐富的船舶目標信息。本文首先構建了以對數譜為輸入的CNN網絡[12],并在DeepShip數據集[13]上訓練。其次,提出一套用于船舶輻射噪聲分類的CNN可視化流程,基于GBP和OIS方法重建輸入空間,以分析CNN模型習得的知識。對CNN的某個深層卷積核,在訓練集中尋找使其擁有最大激活值的若干噪聲記錄作為輸入,利用GBP方法重建輸入空間。提出的多幀特征對齊算法用于合并多條噪聲記錄。OIS作為GBP的輔助觀察手段??梢暬治霭l現,同一個卷積核總是激活相似的輸入模式,這些輸入模式擁有相近的線譜結構或其他模式特征。本文將深層卷積核歸納為兩類,即線譜模式與背景模式。相比船舶輻射噪聲中的背景特征,其中的線譜是船舶目標分類的穩健特征?;诖酥R,本文提出一種CNN剪枝方法,通過保留線譜模式卷積核而剔除背景模式卷積核,并重新訓練全連接層,提升模型分類性能,降低過擬合風險。神經網絡剪枝的目的通常是壓縮模型參數規模[14,15],且一般是數據驅動的[16]。而本文提出的剪枝方法則是在對船舶輻射噪聲分類CNN的可視化分析基礎上實施的,其主要目的是提高模型泛化性能,是基于船舶線譜的物理知識進行的人工剪枝。此外,針對船舶類別的GBP重建樣本可視化表明,剪枝后的CNN模型更加關注樣本中的線譜信息而相對忽略干涉條紋等背景信息,從而提升泛化性能。

2 可視化分析

2.1 基于導向反向傳播的輸入空間重建

當輸入樣本經由神經網絡產生輸出時,信息逐層向前流動,這一過程稱為前向傳播(Forward Propagation)。相反地,當信息在神經網絡中逐層往回流動時稱為反向傳播(Backward Propagation,BP),如模型訓練時采用的梯度BP算法??梢岳肂P算法來重建輸入空間:給定輸入x并執行前向傳播過程至指定層;令感興趣的神經單元的值為1,而該層其余單元的值為0,作為反向傳播的信息;執行BP算法直至輸入空間,即是輸入樣本x在指定神經元下的重建樣本?;贕BP的輸入空間重建方法[9]通過在信息反傳過程中經過ReLU(Rectified Linear Unit)激活單元時將負值置零,提升了可視化效果。以下是GBP算法原理。輸入層變量x0前向傳播至指定的第L層得到輸出xL的過程為

令xL中需要可視化的目標單元的值為1,其余值為0,作為重建輸出空間的信息rL,執行BP得到輸入空間r0的過程為

對于傳統BP算法有

其中I(·)為指示函數。那么,對于傳統BP算法有

而在GBP算法中,rI+1中的負值被置零,即

其中,ReLU(x)=max(0,x)為整流線性單元激活函數。

2.2 基于輸入空間優化的可視化

GBP方法有賴于輸入樣本x0=x,而OIS方法則完全基于訓練好的模型來重建輸入空間,其思路是尋找輸入樣本x*使得指定層指定神經單元的響應最大,即

其中,ai為神經網絡中指定單元i的關于輸入x的響應值。使用梯度下降法求解x*,隨機初始化x,其迭代表達式為

其中η為學習率。

2.3 卷積神經網絡

2.3.1 輸入特征與CNN模型

CNN通過卷積層和池化層,實現逐層提取樣本信息。本文以對數譜為輸入[12],構建深層CNN用于船舶輻射噪聲分類。對數譜是頻率軸使用對數坐標的功率譜,其優點有二:一是放大低頻信息而壓縮高頻信息,二是保留同組諧波線譜在不同基頻下的間距結構特征。一方面,船舶輻射噪聲的目標類別信息主要集中于低頻段,特別是低頻線譜中[17]。另一方面,對數頻率坐標下不同基頻的同一諧波線譜結構,契合CNN卷積層對平移變換的等變性。對平移變換的等變性是指當輸入信號作平移變換時,其輸出也作相同平移而響應值相等。這有助于卷積層中的同一卷積核檢測相似的輸入特征。

船舶噪聲記錄數據被處理成對數譜,然后輸入到CNN中。對數譜樣本尺寸為8×512,表示8幀512個頻點,頻率范圍為8~2048 Hz,每倍頻程64個頻點;相鄰幀之間滑動時長0.5 s。樣本幅值取對數后,線性縮放到[0, 1]區間。構建的CNN包含7個卷積層,其中6個卷積層緊接最大池化層,卷積層后使用批正則化;網絡提取出1 024維特征后輸入3層全連接網絡;全連接層使用Dropout(p=0.2)模型正則技術[18]。模型具體參數如表1所示,表中Conv2d, MaxPool2d和FC分別指2維卷積層、2維最大池化層、全連接層。

表1 CNN模型參數

2.3.2 數據集和模型訓練

DeepShip[13]數據集包含來自265艘船舶的609條噪聲記錄。DeepShip數據集的船舶輻射噪聲的采集時間為2016年5月2日至2018年10月4日,采集地點為喬治亞海峽附近海域。數據采集點位于太平洋東北海岸最繁忙的航線之一,靠近加拿大溫哥華港口,背景噪聲受到河流流量和潮汐影響,且該地區海洋生物活動頻繁。該地區海底由淤泥和砂質沉積物組成,水深300~400 m。噪聲由單水聽器在深度140~150 m處采集,當水聽器2 km半徑范圍內只有一艘船舶時進行記錄。因為數據采集橫跨四季,且包含一天的不同時段,水文條件變化比較豐富,所以在DeepShip數據集上驗證分類算法具有一定普適性。船舶被分為4類:貨輪,客輪,油輪和拖船(分別用A, B, C和D指代)。船舶噪聲記錄的時長為6秒至25分鐘不等,信號采樣率為32 kHz。每條噪聲記錄切片為若干對數譜樣本。對每種船舶類別,隨機選取80%的噪聲記錄作為訓練集,20%的噪聲記錄作為測試集(確保訓練集與測試集中的樣本切片不能來自同一條噪聲記錄,且訓練集與測試集內各類船舶樣本占比相等)。數據集樣本劃分情況如表2所示。訓練時使用Adam優化器,學習率設置為0.000 5;損失函數為交叉熵;訓練批大小為128;迭代訓練20輪,得到CNN模型在測試集上的正確率為69.49%?;谟柧毢玫哪P瓦M行可視化分析研究。

表2 DeepShip數據集樣本劃分

3 船舶輻射噪聲分類CNN卷積核可視化流程

3.1 卷積核可視化流程

圖1和圖2分別為基于GBP和OIS的船舶輻射噪聲CNN卷積核可視化分析流程和各步驟輸出??梢暬鞒贪?個步驟:

圖1 基于導向反向傳播(GBP)和輸入空間優化(OIS)的船舶輻射噪聲CNN卷積核可視化流程

(1) 在訓練數據集中尋找對指定卷積核響應最強的8條噪聲記錄。指定一個卷積核,訓練集中擁有最強響應的樣本能反映該卷積核的性質。此處以分析第7卷積層(見表1,以下簡稱Conv7)的卷積核為例。通過前向過程計算訓練集中每個樣本的Conv7輸出;以同一條噪聲記錄中的樣本為一組,統計指定卷積核的最大輸出的平均值,計為該條噪聲記錄對該卷積核的響應值。對每個卷積核,排序并可視化響應值最大的8條噪聲記錄如圖2(a)所示(樣本切片數少于50的噪聲記錄不在統計范圍內)。

(2) 對樣本執行前向傳播算法并基于GBP算法重建樣本。對8條最強響應噪聲記錄的樣本切片執行前向傳播至Conv7層輸出。Conv7層的特征尺寸為128×1×8,128表示卷積核數(也稱通道數),時間和頻率方向尺寸分別為1和8;對應輸入空間的接受域(receptive field)尺寸為8×192??紤]到Conv7中的池化層,特征中的每個單元僅是輸入空間8×160區域單元的響應。換言之,Conv7層是作用于輸入的1組共128個濾波器;每個濾波器的窗口尺寸是8×160,濾波器沿頻率方向滑動步長為32;得到16個輸出后,每相鄰2個輸出取較大值。為了清晰可視化卷積核的最強響應輸入,在原噪聲記錄中高亮顯示響應區域如圖2(b)所示。

初始化一個與Conv7輸出尺寸一致的張量,設置指定卷積核的最大響應單元處的值為1,其余值為0,此張量即為GBP算法的輸入。根據式(1)和式(2)執行GBP算法的重建樣本如圖2(c)。重建樣本中的非0連通區即為指定神經單元的響應區域。

(3) 對各條記錄的GBP重建樣本進行多幀特征對齊并求均值,得到卷積核的GBP可視化結果。CNN的池化層使得網絡具有局部平移不變性,即當輸入的局部發生少量平移時輸出不變。由于CNN的局部平移不變性,濾波器對響應窗口中的輸入特征容忍了一定程度的平移。如圖2(c)中響應區域內的諧波線譜基頻變化,線譜結構發生平移。為了在可視化時消除這些平移的干擾,本文提出多幀特征對齊算法(見算法1),將同一噪聲記錄最強響應區域中的各樣本對齊并求均值,將8條記錄的GBP結果并列后也進行對齊,結果如圖2(c)所示。

(4) 對8條記錄的響應區間求均值。根據GBP重建結果得到輸入樣本的響應區域,截取原樣本的響應區域,對每條噪聲記錄執行多幀特征對齊并求均值,合并為一個8×160的矩陣如圖2(d)所示。

(5) 基于OIS重建輸入空間。根據指定的Conv7層卷積核,選取處于頻率軸中間的第4個單元;根據式(3)和式(4)迭代計算最優的輸入樣本w*使該單元響應最大化;截取8×160的響應區域如圖2(e)所示。

3.2 卷積核可視化結果

圖3為卷積核的可視化報告樣例。前8列是該卷積核的最強響應噪聲記錄,及其對應的GBP重建樣本。第1行是原對數譜樣本(標簽指示噪聲記錄類別和編號),高亮部分為卷積核的最強響應區域;縱軸為頻率,頻率范圍為8~2 048 Hz,每倍頻程64個頻點;橫軸為時間。第2行是GBP重建樣本,對應上一行原樣本的高亮部分。除原樣本外,其余子圖的縱軸頻率范圍都是2.5個倍頻程、共160個頻點。圖3(a)為8條記錄的響應區域對齊后求均值;圖3(c)為響應區域經GBP重建后對齊并求均值;圖3(d)為圖3(c)中8條記錄的平均,其中紅線值為0;圖3(b)為OIS結果。此卷積核檢測樣本中的一組諧波線譜,從圖3(c)和圖3(d)看出,此組諧波在2.5個倍頻程范圍內有約20根線譜,其中較強線譜出現在響應區域中段。圖3(b)的OIS結果也指示在響應區域中段有2根較強線譜。

圖3 Conv7中一個卷積核的可視化結果

分析Conv7的128個卷積核可視化結果,將其歸納為兩類:線譜模式卷積核與背景模式卷積核。線譜模式是指卷積核只檢測輸入樣本中的線譜信息,包括多根諧波線譜和單根強線譜。背景模式是指卷積核檢測輸入樣本中的背景特征,包括干涉條紋和連續譜,這些背景可單獨出現,也會伴隨線譜出現。圖3展示的即是卷積核檢測多根諧波線譜的模式。

圖4集中展示了另外4種典型模式,各分塊含義參照圖3,其中僅給出最強一條響應噪聲記錄。圖4(a)的GBP卷積核檢測輸入樣本中的單根強線譜模式。圖4(b)卷積核檢測干涉條紋模式。需注意,多條記錄GBP對齊結果是1根很強亮線時,其模式不一定是單根強線譜模式:如圖4(b)檢測的是干涉條紋背景。曲線圖中可以看出二者的區別,圖4(a)中峰值周圍的值在0附近,而圖4(b)中峰值周圍的值則大于0。結合對原噪聲記錄響應區域的觀察或OIS的可視化結果也可區別圖4(a)與圖4(b)中的模式。圖4(a)的OIS指示響應區域的低頻部分存在一根強線譜,而圖4(b)的OIS區域中段的亮斑則指示樣本中的非線譜模式。OIS的結果與GBP有一定的對應關系,一定程度佐證了選出的8條響應噪聲記錄具有代表性,但其本身不具有很強的物理解釋性。圖4(c)是卷積核檢測樣本中的線譜疊加連續譜的模式。圖4(d)是卷積核檢測樣本中高頻端的連續譜背景。

圖4 卷積核的4種典型模式

3.3 針對類別的GBP重建

GBP重建也可對輸出層可視化,即針對類別可視化。網絡輸出層向量長度等于類別數C。初始化長度為C的one-hot向量作為GBP重建時的輸入,指定類別對應位置等于1,其余位置為0。重建過程與可視化隱層單元一致。指定不同的類別相當于選擇不同的濾波器,根據在訓練數據中習得類別“知識”,濾波器輸出樣本中與此類目標相關的特征。

4 基于卷積核可視化的CNN剪枝

4.1 剪枝方法

背景特征往往反映海洋信道的信息,與之相比,船舶輻射噪聲的線譜特征較為穩定且更具分辨力。本文根據可視化結果,對CNN網絡的Conv7層進行剪枝,揀選并保留64個線譜模式卷積核;相應地,輸入到后續全連接層的神經單元數由1 024減少到512。復制原CNN中前6層網絡參數以及選中的64個卷積核參數;重新隨機初始化全連接層參數并進行訓練。在訓練過程中,凍結卷積層參數,只訓練全連接層參數(改進的網絡記為CNN-L64)。訓練迭代50輪,其他訓練參數與前次試驗一致。重復進行5次試驗。

設置4組對照網絡模型。(1)CNN-B64:CNN中保留剩下的64個背景模式卷積核,裁剪掉線譜模式卷積核。需要說明,Conv7的128個卷積核中人工揀選出共80個線譜模式卷積核。此處為了對照試驗將128個卷積核分為互不相交的2組。(2)CNN-128:CNN中保留所有的128個卷積核,凍結卷積層參數,重新初始化全連接層。(3)CNN-64:CNN的Conv7為64個卷積核,所有參數隨機初始化后訓練70輪。(4)P-CNN-64:利用“排序截短平均算法[19]”去除了對數譜中的連續譜成分,CNN結構及訓練過程均與CNN-64相同。排序截短平均算法中滑動窗大小為11,排除窗內的最大值,剩余10個頻點的平均功率譜值作為噪聲背景的估計。

4.2 試驗結果

表3是模型平均正確率。雖然4個模型的訓練正確率大體相當(其中CNN-L64最低),但是CNNL64的測試正確率相比CNN-128提高了1.3%,而CNN-B64的測試正確率則降低了1%。CNN中只保留線譜模式卷積核時,模型分類性能提升;反之則分類性能下降。CNN-64的結構與CNN-B64, CNNL64是相同的,其測試正確率介于二者之間,等于69.05%。這證明了基于可視化方法挑選卷積核并進行剪枝的有效性。雖然P-CNN-64的輸入去除了連續譜背景,但是其正確率卻低于CNN-64。這表明知識驅動的傳統算法去除連續譜背景時帶來信息損失,其效果取決于算法參數的選取。而CNN則是基于數據驅動隱式地提取功率譜中的有效分類特征。本文方法在數據驅動的基礎上,結合關于背景和線譜的知識來提高分類性能。

表3 各CNN模型分類正確率(%)

定義樣本的最大線譜強度為樣本中譜值最大的線譜高于背景噪聲的分貝數(背景噪聲用譜峰左右各5個頻點的均值估計)。統計測試集樣本的最大線譜強度,用16, 8, 4和2分位點將樣本劃分為8組,并計算各分組下的分類正確率,結果如表4和圖5所示(各分組的樣本數分別為546, 545, 1 090, 2 180,2 180, 1 090, 545, 546)。當最大線譜強度為15.7~24.6 dB時,CNN-L64的分類正確率都是最高的;當最大線譜強度在14.0~15.7 dB時,CNNL64分類正確率僅略低于CNN-128。這表明,當最大線譜強度為14.0~24.6 dB時,提出的算法是穩健的且具有明顯優勢。而當最大線譜低于14.0 dB時(此部分樣本占比為1/8),5種算法的性能均明顯下降。當最大線譜強度高于24.6 dB時(此部分樣本占比為1/16),5種算法的性能也均出現下降。

圖5 線譜強度與分類正確率的關系

表4 不同最大線譜強度(dB)下CNN模型分類正確率(%)

圖6中每個點是同輪數的正確率均值,每個模型訓練50輪。圖6表明,整個訓練過程中,CNNL64分類性能始終優于CNN-128,更優于CNNB64。這說明,揀選出來的64個線譜模式卷積核充分保留了船舶類別信息,而背景模式卷積核則起反作用。圖6中,訓練的最后幾輪里CNN-L64的訓練正確率提升較慢;而CNN-128和CNN-B64的訓練正確率雖然還在提升,但是測試正確率反而下降,這表明網絡中的背景模式卷積核過擬合了:CNNB64和CNN-128的訓練正確率的提高來源于對背景信息的過分擬合,這對船舶分類任務是不利的。從圖6中還可以看出CNN-L64的數據點分布更集中,表明CNN-L64的訓練過程更加穩定,更易收斂??傊?,經過剪枝而只保留線譜模式卷積核的CNN-L64,其分類性能提高,訓練過程更穩定且更不易過擬合。

圖6 卷積核剪枝前后CNN性能對比

4.3 針對類別的GBP可視化分析

圖7是3個模型的針對船舶類別的GBP重建結果。輸入的船舶噪聲記錄均來自測試集。GBP重建時指定類別為該記錄的真實類別。第1行為船舶噪聲記錄輸入,第2, 3, 4行分別為3個模型得到的GBP重建樣本。從圖7看出,CNN主要基于船舶線譜特征進行目標分類,樣本中較強的干涉條紋會影響分類器判別,而平滑的連續譜背景則被CNN忽略。指定不同類別的4維向量作為GBP輸入時,可視化結果的差異并不顯著,只是GBP重建輸出的幅值大小不同(篇幅限制未給出圖);這表明,Deep-Ship數據集中4類船舶的區分度并不高。如圖7,比較剪枝前后的GBP重建樣本發現,CNN-L64重建樣本中的干涉條紋等背景特征相比CNN-128減弱,而線譜特征特別是無條紋疊加的線譜特征增強了。相反的,CNN-B64重建樣本中的背景特征相比CNN-128增強了,如前所述,這帶來分類器泛化性能的降低。雖然CNN-L64的重建樣本中干涉條紋有所減弱,但是條紋并未完全消除,繼續裁剪Conv7層或其他層卷積核是否能繼續帶來性能提升還需進一步研究。

圖7 針對類別的GBP重建樣本

5 結束語

本文提出基于GBP和OIS的船舶輻射噪聲CNN可視化方法,分析表明船舶輻射噪聲分類CNN的深層卷積核包括線譜和背景兩種模式,它們在不同頻率位置上分別檢測輸入樣本中的線譜和背景特征。這兩類特征中,線譜是船舶分類的有效和穩健特征,而背景特征則更多反映海洋信道信息。本文基于此知識提出的卷積核剪枝方法提高了CNN的分類性能。GBP分析表明,改進的CNN更加注意樣本中的線譜信息。本文的可視化方法雖然定性解釋了CNN對船舶輻射噪聲譜分類時的機理,但缺少對卷積核性質的定量分析,剪枝時需人工挑選卷積核,下一步將研究改進方法。另外,由于數據集的波導條件比較單一,未來將開展更全面的數據試驗以研究算法的適用條件,以及結合海洋信道特性改進分類算法。

猜你喜歡
線譜正確率可視化
基于CiteSpace的足三里穴研究可視化分析
UUV慣導系統多線譜振動抑制研究
基于Power BI的油田注水運行動態分析與可視化展示
門診分診服務態度與正確率對護患關系的影響
基于CGAL和OpenGL的海底地形三維可視化
基于矢量線陣的目標低頻線譜提取方法
“融評”:黨媒評論的可視化創新
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合