?

基于AL-Transformer 的鐵路客運站旅客屬性識別方法

2024-03-15 10:15
鐵路計算機應用 2024年2期
關鍵詞:客運站行人旅客

張 波

(中國鐵路蘭州局集團有限公司 客運部,蘭州 730030)

隨著我國鐵路建設的快速發展和高速鐵路(簡稱:高鐵)線網的不斷完善,高鐵已逐漸成為人們的首選出行方式。為保障旅客的候車安全,提升旅客出行體驗,鐵路客運站內普遍通過工作人員實時觀察旅客候車情況,盡可能地提高旅客候車舒適度。然而,鐵路客運站面臨著日益增長的客流量和復雜的站場形式,人工觀察的方式大多是事后的補救措施,無法主動提升候車服務質量。

因此,有必要在旅客進入候車室時就自動識別到其屬性信息(年齡范圍、性別、帽子、眼鏡、衣著、乘坐輪椅、攜帶物等),從而為其主動提供精準服務;增加異常行為報警的詳細描述信息,輔助工作人員快速、準確鎖定異常行為人員等,從而更好地保障旅客候車安全。

行人屬性識別技術是為攝像頭捕捉的行人圖片監測其屬性類別的技術[1]。早期的行人屬性識別技術通常依賴人工進行屬性提取,并為每個屬性設計單獨的分類器[2-4]。然而,客運站的復雜環境會顯著降低該技術的性能。隨著深度學習技術的發展,眾多學者嘗試使用復雜網絡來解決該問題[5-8],例如,利用特征金字塔網絡(FPN,Feature Pyramid Network)從多層次特征圖中提取屬性,結合注意力機制提取屬性類別。隨著Transformer 模型在計算機視覺領域的廣泛應用,學者們發現其可捕獲長距離依賴關系,更適合于行人屬性的提取。該模型主要通過屬性相關性來完成任務,然而過渡的依賴關系有時反而會降低屬性定位的準確性。

綜上,本文提出一種基于AL-Transformer(Attribute Localization—Transformer)模型的鐵路客運站旅客屬性識別方法。該方法基于掩碼對比學習(MCL,Mask Contrast Learning)框架抑制特征區域相關性;通過屬性空間記憶(ASM,Attribute Spatial Memory)模塊獲得更有辨識度、更可靠穩定的屬性區域。為鐵路客運站工作人員推送更有針對性的預警信息,提高旅客服務質量。

1 AL-Transformer 模型

AL-Transformer 模型以Swin Transformer 為骨干網絡[9],其總體架構如圖1 所示。AL-Transformer 模型將給定的圖像分割成不重疊的圖像塊;隨后對每個圖像塊進行線性嵌入,并通過Swin Transformer 骨干提取圖像特征。AL-Transformer 模型引入MCL 框架,生成隨機掩碼特征圖FMask和原始特征圖FOri,FMask和FOri通過Transformer 模型和ASM 模塊,分別生成預測logits和logits_Mask。AL-Transformer 模型計算logits_Mask和logits間的比較損失并進行回歸預測,改進屬性定位能力。

圖1 AL-Transformer 模型總體架構

1.1 MCL 框架

AL-Transformer 模型在骨干網絡的基礎上,加入MCL 框架,降低模型中的區域相關性對于性能預測的影響。為使AL-Transformer 模型更關注于精確的屬性空間區域,MCL 框架在網絡中間層完成特征掩碼,通過控制特征區域間的相關性提升預測精度。

MCL 框架為每一批輸入圖像生成相應數量的隨機FMask,隨后在分類器階段設置對比度損失函數Lcon,以評估通過隨機遮掩和沒有隨機遮掩的預測結果間的差異,損失函數Lcon公式為

式(1)中,predMask和predOri分別為原始特征圖FOri和隨機掩碼特征圖FMask的預測結果。

1.2 ASM 模塊

ASM 模塊用于解決空間注意力區域偏差問題,其架構如圖2 所示。

圖2 ASM 模塊架構

ASM 模塊利用輸入特征生成注意力圖,選擇可靠的注意力圖保存在記憶器模塊中,再通過注意力機制和選擇器為其生成相應的屬性定位信息。

ASM 模塊將特征圖F∈RB×C×H×W和分類器權重w∈RM×C作為輸入,其中,F∈RB×C×H×W是主干網絡的輸出;H、W、C表示特征圖的高度、寬度和通道維度;B為訓練批次。M是屬性的總數;A∈RB×M×H×W為輸出的每個屬性的注意力圖,其公式為

式(2)中,Fi是主干框架的特征圖;wm是第m個屬性的分類器權重。

注意力圖Ai,m表示不同空間區域的屬性預測值,ASM 模塊分別對不同屬性生成相應的嵌入向量,對空間位置信息進行加權,從而改進每個屬性的空間定位。再對注意力圖進行歸一化,用作空間加權系數,對特征進行加權池化。

1.3 損失函數

AL-Transformer 模型根據二元交叉熵損失計算分類損失Lcls,公式為

式(3)中,pi,j為分類器的預測概率;yi,j為預測結果;N為預測屬性類別數。

對比損失Lcon公式為

式(4)中,probOri和probMask分別代表原始特征的預測結果和掩碼特征的預測結果。

最終損失函數Loss是分類損失Lcls和對比度損失Lcon的加權總和。

2 試驗驗證

2.1 性能比較

2.1.1 公共圖像數據庫介紹

本文試驗采用PETA(PEdesTrian Attribute)公共圖像數據庫和PAl00K(Pedestrian Attribute—100K)公共圖像數據庫的公開圖像數據。其中,PETA 公共圖像數據庫包含19 000 張行人圖片,圖片的分辨率為17×39~ 169×365(PPI),同時,每張行人圖片標注了61 個二元屬性和4 個多類別屬性,例如年齡、性別、服飾和配飾等[10],其圖片示例如圖3(a)所示;PAl00K 公共圖像數據庫是目前為止最大的監控場景下行人屬性識別數據庫。該數據庫擁有100 000張行人圖片,包括80 000 張訓練集圖片,10 000 張驗證集和10 000 張測試集圖片,每張行人圖片被標注了26 個屬性[5],其圖片示例如圖3(b)所示。

圖3 本文采用的公共圖像數據庫圖像示例

2.1.2 實驗設置

本文基于PyTorch 框架實現鐵路客運站旅客屬性識別方法,并以端到端的方式進行訓練,采用Swin Transformer 作為骨干網絡提取行人圖像特征。本文將輸入的行人圖像尺寸統一調整為256×192 像素,并采用隨機水平鏡像、填充和隨機裁剪的方式進行圖像增強。此外,本文采用Adamw 訓練策略,設置衰減權重為0.000 5、初始學習率為0.000 1、批處理大小為64、訓練階段的總迭代周期為50、動量系數為0.999 8、標簽平滑系數為0.2。

2.1.3 性能比較

本文采用平均準確率(mA)、準確率(Accu)、精確率(Prec)、召回率(Recall)和 F1 值作為評價指標[11],基于PETA 和PA100K 這2 個公共圖像數據庫,與位置信息嵌入、視覺屬性聚合和視覺注意一致等3 種常規算法進行性能比較。

由表1 可知,AL-Transformer 模型在PETA 和PA100K 公共圖像數據庫上實現了更好的性能。與采用ResNet101 作為骨干網絡的視覺屬性聚合模型相比,本文方法在PETA 公共圖像數據庫上的mA 和F1 性能分別提高了4.95%和1.59%。與位置信息嵌入模型等基于定位的方法相比,本文方法在2 個公共圖像數據庫上的mA 性能分別提高了3.93%和3.24%。本文方法在大多數性能指標上顯著優于視覺注意一致方法[12]。

表1 多種方法的性能比較

2.2 可視化驗證

如圖4 所示,在PA-100K 公開圖像數據庫的測試集上對本文方法和Swin Transformer 網絡關注的屬性區域進行了可視化驗證。其中,綠色邊框為Swin Transformer 網絡的屬性注意力圖;紅色邊框為本文方法的屬性注意力圖。與Swin Transformer 網絡相比,本文方法有助于為每個屬性定位與其相關的區域,例如:在圖4 中的行人2 和行人3 中,當識別到屬性“眼鏡”時,本文方法更好地關注到了頭部區域??梢暬Y果表明,本文方法可有效改善每個屬性的空間位置。

圖4 本文方法與Swin Transformer 網絡的屬性注意力圖可視化展示

2.3 消融試驗

本文通過消融試驗來驗證ASM 模塊和MCL 框架對AL-Transformer 模型性能的影響,試驗結果如表2 所示。

表2 在PETA 和PA100K 上的消融實驗

(1)Swing Transformer 主干網絡的屬性定位精度較差,識別精度較低,證明算法在沒有正確的注意區域的情況下,缺乏對屬性語義特征的辨別能力,并包含更多噪聲。

(2)相比于只使用Swing Transformer 主干網絡,添加ASM 模塊可使在PA100K 和PETA 公共圖像數據庫的mA 性能分別提升1.18%和2.06%,這是因為,ASM 模塊通過屬性預測得分生成可重復使用的屬性空間注意力圖,指導屬性空間特征融合,提高屬性定位精度。

(3)在Swing Transformer 主干網絡上引入MCL框架,可在行人圖像上生成隨機遮擋,評估其預測結果與正常輸入預測結果的差異。通過抑制區域相關性來提高屬性定位能力,相比于只使用Swing Transformer 主干網絡,引入MCL 框架后,在PA100K 和PETA 公共圖像數據庫的mA 性能分別提升了0.39%和0.47%。

(4)本文方法的mA 性能指標在PA100k 和RETA 公共圖像數據庫上分別比只使用Swing Transformer 主干網絡提高了1.79%和2.34%。

2.4 白銀南站現場驗證

基于AL-Transformer 模型的鐵路客運站旅客屬性識別方法已在中國鐵路蘭州局集團有限公司白銀南站試用。

(1)針對安檢區域采集的圖像,通過本文方法可自動識別進站人員的結構化信息,如性別、年齡范圍、穿戴物品(帽子、眼鏡、背包、短袖、長外套、長褲、短褲、裙子、連衣裙)、衣物顏色、旅客所在位置/區域、是否攜帶輪椅嬰兒車折疊自行車等特征。

(2)根據旅客的上述屬性特征進行主動服務,例如:針對坐輪椅的旅客,可及時將信息下發給附近區域的車站工作人員,對其進行重點關注;針對攜帶折疊自行車的旅客,可及時將其信息推送給站臺和候車廳內相關值班人員。

(3)提升旅客描述顆粒度。針對視頻分析系統中識別出來的異常行為人員,可提升報警信息的精確性,進一步細化報警信息,例如,細化內容為:身著紅色衣服的長發女性,在1 站臺距離南端口大約200 m 處,出現越線行為等。從而,使車站工作人員及時發現異常行為人員,有效阻止事態發展。

3 結束語

本文提出了一種基于AL-Transformer 模型的鐵路客運站旅客屬性識別方法,該方法在 Swing Transformer 主干網絡的基礎上,通過融合MCL 框架和ASM 模塊來精準選擇屬性信息的相關區域,從而更準確地獲取旅客的結構化信息,為工作人員推送更加精準的報警信息,進一步提升鐵路客運站的旅客服務質量。

猜你喜歡
客運站行人旅客
非常旅客意見簿
毒舌出沒,行人避讓
淺談客運站規劃原則及流線組織——以武清汽車客運站為例
路不為尋找者而設
大型鐵路客運站暢通工程的現狀及推進措施
我是人
我是行人
高鐵客運站分區式自然通風設計研究
給小旅客的禮物
公路客運站信息化建設與管理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合