?

深度學習在野生動物保護中的應用

2023-12-22 10:17鐘俊杰鈕冰陳沁陳翔王艷
獸類學報 2023年6期
關鍵詞:野生動物卷積深度

鐘俊杰 鈕冰 陳沁 陳翔 王艷

(1 上海大學生命科學學院,上海 200444)(2 上海海關,上海 200135)(3 上海海關動植物與食品檢驗檢疫技術中心,上海 200135)

物種多樣性、遺傳多樣性和生態系統多樣性共同構成了生物多樣性,其中物種多樣性又包括動物種類的豐富性。野生動物既是寶貴的生物資源,也是生態系統不可或缺的一部分。它們在物質循環和能量流動中扮演著重要角色,并具有諸如促進植物生長、調節植物群落結構和維持水土等方面的生態學價值 (張同作等,2022)。然而,在自然因素和人為因素的干擾下,野生動物的數量和種類在持續減少 (Phelpset al., 2010)。野生動物數量和功能多樣性的下降導致其他物種群體的滅絕率上升,并影響整個生態系統的功能 (Malhiet al., 2022)。此外,由于人類開發和經濟需求的增加,與野生動物的接觸也越來越頻繁,一些傳染病如SARS、COVID-19 和禽流感等開始流行,對人類及動物構成巨大的健康風險 (You, 2020),據估計至少有70%新興的人畜共患疾病起源于野生動物 (Hassellet al., 2017)。鑒于上述原因,科學家們正在努力利用先進的技術手段,例如遙感技術、基因測序和深度學習等,來識別、檢測和追蹤野生動物,這些技術的應用將有助于更好地了解野生動物的生態需求和行為習性,從而制定更有效的保護策略。但在識別、檢測、追蹤野生動物以及確定野生動物的種群數量等方面,存在困難與挑戰,例如許多野生動物物種數量較少,且行為隱蔽、難以辨別并且主要棲息在廣闊而偏遠的地區 (Weinstein, 2018)。

隨著大數據時代的到來,深度學習和各類研究領域交叉融合。在野生動物保護方面,深度學習應用前景廣闊。深度學習算法能夠自動檢測和從數據中提取特征。這意味著我們只需要告訴深度學習算法圖片中是否存在野生動物,并且給定足夠多的例子,它將能夠自己弄清楚野生動物的樣子 (Christinet al., 2019)。將深度學習與無人機、衛星遙感和可穿戴傳感器等設備結合后,可以應用于野生動物的生長估計、疾病監測和行為檢測等 (Maoet al., 2023),因而有利于節省人力、財力和時間,加強野生動物的保護 (圖1)。傳統的野生動物個體識別通?;谝曈X特征,例如斑點、花紋等,而深度學習則可以從某類相似野生動物圖像中提取出更加復雜的特征并精確識別個體的身份。個體識別有許多優勢,例如減少了對動物的干預、可以追蹤不易捕捉的物種、減少數據處理時間等。此外,深度學習還可以結合無人機和衛星遙感、紅外相機等技術,為野生動物保護提供新穎而有效的方法 (Liet al., 2022)。本文介紹了深度學習及其原理,詳細回顧了深度學習在野生動物保護領域的4個主要應用。

圖1 深度學習在野生動物保護中的應用場景Fig. 1 Application scenario of deep learning in wildlife conservation

1 深度學習

1.1 深度學習概述

機器學習是指通過算法和訓練,使計算機理解和處理特定數據,旨在構建模型以完成目標檢測或自然語言翻譯等認知任務 (Janieschet al.,2021)。目前涌現了許多傳統算法,如人工神經網絡 (Artificial Neural Network, ANN) (Schmidhuber,2015)、隨機森林 (Random Forest, RF) (Antoniadiset al., 2021)、邏輯回歸 (Logistic Regression, LR)(Bonte and Vercauteren, 2018) 等。而深度學習是機器學習的一個分支 (Zhuet al., 2020),它的核心是人工神經網絡,神經網絡的靈感源于神經元的運作,最早是在1943 年由神經生理學家Warren Mc-Culloch 和數學家Walter Pitts 提出,模擬大量神經元相互連接并處理大量信息 (Piccinini, 2004; Khamparia and Singh, 2019)。深度學習的概念是由Hinton 和Salakhutdinov (2006) 提出,是指用于通過多層非線性變換對復雜高緯度數據進行建模的算法集合。深度學習與傳統的機器學習算法主要區別在于,深度學習可以從數據中自動學習特征,無需人工確定特征 (Wenet al., 2020)。深度學習預測性能高、泛化能力強,因而在面部、語音、圖像、自然語言處理、醫學科學等領域中應用廣泛 (Darganet al., 2020)。

1.2 深度學習原理

深度學習是一種特殊的神經網絡,而典型的神經網絡由輸入層、中間層以及輸出層構成。在神經網絡中,信息通過許多神經元進行傳遞,輸入層的神經元接收輸入信號,再乘以權重值后到達中間層,再經歷n層后輸出相應結果。在此過程中,隨著層數的增加,會得到更有效的特征和信息 (Zeiler and Fergus, 2014)。目前,已經衍生出了各種深度學習的框架,例如卷積神經網絡 (Convolutional Neural Network, CNN)、循環神經網絡 (Recurrent Neural Network, RNN)、生成對抗網絡(Generating Adversarial Network, GAN) 等 (Mishraet al., 2022)。

CNN 是一種專門用于處理圖像數據的深度學習算法,在計算機視覺領域得到了廣泛應用,主要結構如圖2 所示,分為輸入、卷積層、池化層、全連接層和輸出 (Mittalet al., 2021)。卷積層是CNN 模型的核心,卷積層中的神經元排列在矩陣中,形成多通道特征圖,每個通道中的神經元僅連接到該層之前特征圖的一部分 (Liu and Wang,2021)。感受野是在卷積的過程中所提取的圖片信息,而卷積核的尺寸與感受野成正比,卷積核的尺寸越大,感受野越大,提取特征也越多。常用的卷積核尺寸有1 × 1、3 × 3、5 × 5、7 × 7 和11 ×11 五種類型,并且可以對卷積核進行替換 (馬金林等,2022)。雖然大尺寸卷積核在特征提取的過程中表現優異,但是會使計算量增加,因而InceptionV3 將5 × 5 的卷積替換為兩個3 × 3 的卷積,為卷積替換提供了思路 (Szegedyet al., 2016)。池化層,也稱為下采樣層,池化操作從上部特征圖中提取主要信息并保留特征 (Alzubaidiet al.,2021),通常包括最大池化和局部池化。局部池化是通過來自局部區域的數據來顯示特征圖的方法,而全局池化,為特征圖中的每個特征創建一個標量值,表示來自特征向量的圖像 (Zafaret al.,2022),它會選取每個區域內的最大值作為輸出,相比于局部池化,全局池化能保留更多的特征信息,但計算量較大。在卷積和池化之間交替后,經常會構建一個全連接層。全連接層將所有信息組合在一起,將多維特征轉換為一維特征,然后將其移交給最終回歸器和分類器以產生最終結果(Wang and Su, 2022)。CNN 具有局部感知和參數共享的優勢,每個神經元只要感知圖像的局部像素并在更高層合并這些信息從而得到圖像全部特征信息,而參數共享減少了參數數量,降低了模型的復雜度 (Wanget al., 2022)。

圖2 CNN基本結構Fig. 2 Basic structure of CNN

RNN 是神經網絡的一種特定架構,目的是對有特定順序關系的數據進行建模,最早由Rumelhart (1986) 提出。為了處理順序數據,RNN 具有神經元連接的循環層,神經元的信息被傳遞給同一層和下一層的神經元 (Tranet al., 2021)。RNN廣泛應用于序列特異性強的數據,例如文本、音頻和視頻等 (Yuet al., 2019)。最成功的RNN 架構之一是長短期記憶 (Long Short-Term Memory,LSTM),其部分程度解決了梯度消失的問題,包含3種類型的門:輸入門、遺忘門和輸出門,這3種門精妙地結合了長期記憶和短期記憶 (Wanget al.,2022)。門控循環單元網絡 (Gated Recurrent Unit networks, GRU) 來自LSTM,在拓撲、計算成本和復雜性方面是RNN 的輕量級版本,比標準LSTM更輕 (Alomet al., 2019)。

GAN 是由Ian Goodfellow 在2014 年發布,是一種無監督的深度學習方法,其中兩個神經網絡在零和游戲中相互競爭 (Goodfellowet al., 2014)。該網絡主要由生成器和鑒別器構成,其中生成器獲取隨機噪聲矢量作為輸入和輸出,而鑒別器用于區分真實圖像和生成器創建的假圖像 (Aldausariet al., 2023)。網絡以對抗的方式進行訓練,同時會提高鑒別器和生成器的性能,最終達到納什均衡 (Nash Equilibrium)。GAN 被廣泛研究,并提出了許多改進版本。谷歌提出了邊界平衡生成對抗網絡 (BEGAN),可以平衡圖像多樣性和視覺質量(Hahet al., 2018)。而Wasserstein GAN (WGAN) 算法與傳統GAN 相比,用有意義的損失函數與生成器的收斂性和樣本質量相關聯,提高了優化過程的穩定性 (陳宇等,2021)。由于GAN 出色的數據生成能力,目前已經被應用于圖像修復、視頻生成和預測、提高圖像質量等方面 (Porkodiet al.,2022)。

2 深度學習在野生動物保護中的應用

2.1 野生動物視頻識別

自動隱蔽攝像機或紅外相機在大量連續收集野生動物數據方面有巨大優勢,在各類自然保護地野生動物監測中得到了快速應用 (肖治術等,2022)。但是大量的圖像和視頻人工處理極其耗時且單調,而利用計算機視覺中深度學習可以實現對野生動物視頻的自動識別 (Nguyenet al., 2017)。野生動物視頻檢測可以概括為6 個步驟 (Liet al.,2020):(1) 拍攝視頻;(2) 將視頻轉換為幀;(3) 標注圖像;(4) 利用深度學習對標注圖像進行訓練;(5) 在獨立數據上驗證和測試模型;(6) 使用訓練好的模型檢測其他視頻。Wang 等 (2021) 提出了一個帶有補丁檢測器的特征融合網絡 (FFN-PD),用于解決大熊貓 (Ailuropoda melanoleuca) 識別困難,并發現眼睛周圍的視覺特征在大熊貓識別中起著重要作用。Schindler 和Steinhage (2021) 基于相機陷阱,評估了在夜間各類深度學習框架對鹿、野豬、狐貍和野兔的識別,發現Mask R-CNN 與ResNet 相結合,產生了最佳結果,動物檢測和識別的平均精度為63.8%。Islam 和Valles (2020) 建立一個靈活的CNN 架構,用于從相機陷阱圖像中檢測蛇、蜥蜴、蟾蜍和青蛙等野生動物。此研究建立了一個高效的監測系統,可以加速野生動物調查和分析的進程。Lei 等 (2022b) 從瀕危物種蜂猴 (Nycticebus bengalensis) 的監測視頻中提取幀,測試了兩種基于YOLOv5 的優化模型,發現YOLOv5-CBAM+TC 模型比YOLOv5 具有更好的精度和召回率,是圈養環境中檢測蜂猴的有效方法,有助于實現基于計算機視覺的蜂猴面部和姿勢識別。Falzon等 (2020) 開發了一款名為ClassifyMe的野外偵察軟件,專門識別相機陷阱中的野生動物,該軟件的主要框架是DarkNet 和YOLOv2,可用于在現場捕獲圖像數據和分析。這些研究基于不同的方法,旨在提高野生動物識別和監測的效率和準確率。這些成果都使用了深度學習技術來解決野生動物識別和監測的問題,其中包括特征融合、補丁檢測器、優化模型等方面的創新。同時,都著重考慮了實際應用中遇到的問題,如夜間光線、圈養環境、相機陷阱等,提出了相應的解決方案。

由于相機陷阱在拍攝時存在大量不包含目標野生動物的圖像,需要對數據進行過濾。在監測白鯨 (Delphinapterus leucas) 時,Westphal等 (2022)提出使用CNN 過濾掉67.9%不含白鯨的空白幀,并以97.0%的準確率識別白鯨。Dai等 (2021) 提出了一種稱為TS網絡的方法,用于分割背景和前景,該網絡由改進的跟蹤網絡和顯著性網絡組成,將視頻分割為相關幀,識別準確率提高了1.9%。相比于傳統人工識別,目前可以在野外設置攝像頭后,定時傳回視頻再用深度學習進行識別,如果發現野生動物則可采取相應措施并進行保護 (黃志靜等,2022)。野生動物的視頻識別經歷了由人工識別到相機陷阱識別的過程,而深度學習模型在相機陷阱識別數據處理中發揮重要作用,過濾了只包含空白背景的幀,并且對目標進行識別。然而一些問題有待解決,例如圖像模糊、異物遮擋等,這些問題是野生動物視頻識別所面臨的挑戰,也是未來的研究方向。

2.2 野生動物圖像識別

對于那些在個體或群體之間差異不明顯且數量龐大的物種,精確的個體識別就會比較困難,因而野生動物的圖像是最難識別的對象之一。此外,野生動物生活在自然棲息地,由于植物的遮擋,使識別更加困難 (Venkitasubramanianet al.,2016)。Kim 等 (2022) 基于Faster R-CNN 對26 種亞馬遜鸚鵡 (genusAmazona) 進行分類,而Faster RCNN 提升了運行速度,進一步把檢測速度提高到準實時,有利于保護亞馬遜鸚鵡的野生種群。Santangeli 等 (2022) 基于YOLOv3 識別禿鷲 (Torgos tracheliotos) 和其他大型鳥類,有助于自動化遠程大量收集野生動物生態數據。Chen 等 (2020) 開發了一種全自動深度學習算法,用于大熊貓面部檢測和身份預測,并且建立了最大的大熊貓圖像數據集,其中包含來自218 種不同大熊貓的6 441 張圖像。Xie等 (2019) 搜集了內蒙古賽罕烏拉國家級自然保護區的中華斑羚 (Naemorhedus griseus)、馬鹿 (Cervus canadensis)、狍 (Capreolus pygargus)、猞猁 (Lynx lynx) 和獾 (Meles meles) 等動物圖像并基于多分支聚合和擠壓激勵網絡的集成模型構建自動圖像識別模型,模型準確率為95.3%。Zhang等 (2020) 從澳大利亞昆士蘭州的幾個國家公園收集數據建立了大型全高清野生動物監測圖像數據集,并基于CNN 識別了袋鼠 (Macropus)、鴯鹋(Dromaius novaehollandiae) 等多種野生動物。而在野生動物精準個體識別方面,傳統采用人工標記或者記憶方法,需要專業人員蹲點觀察很長時間才能把目標野生動物區分開,耗時耗力又容易產生混淆。Guo 等 (2020a) 利用神經網絡模型開發了靈長類動物識別系統,能夠精確識別41 種靈長類動物,對秦嶺地區的川金絲猴 (Rhinopithecus roxellana) 識別率高達95.6%。趙婷婷等 (2018) 利用Cifar-10 深度學習模型代替人眼,用金錢豹 (Campanumoea javanica) 花紋的差異性來區分金錢豹個體,進而估算區域內金錢豹的種群數量。根據東北虎 (Panthera tigris altaica) 的體側條紋信息不具有對稱性,使用CNN 模型有助于實現東北虎個體的精確自動識別 (史春妹等,2021)。這些研究所采用的檢測算法有所不同,如Faster R-CNN、YOLOv3、CNN 等。這些算法有著各自的優缺點,在不同的場景下可能表現更優秀。因此,選擇合適的算法對于實現高質量的動物檢測任務非常關鍵。此外,這些研究對于數據預處理、模型訓練、檢測速度等方面的細節也進行了深入探究,Zhang 等(2020) 所建立的全高清野生動物監測圖像數據集,可以為后續研究提供高質量的數據支持。未來可以繼續深入探索這一領域的技術應用和創新,為野生動物保護和管理工作做出更大的貢獻。

為了更準確地識別野生動物,科研工作者對不同的模型進行了測試與比較。Ueno 等 (2022) 使用GoogLeNet 和ResNet-18 與順序貝葉斯濾波器組合后改善了對日本獼猴 (Macaca fuscata) 的識別,推測順序貝葉斯濾波器可以提高日本獼猴個體識別的準確性。楊銘倫等 (2022) 收集了神農架國家級自然保護區內梅花鹿 (Cervus nippon)、毛冠鹿(Elaphodus cephalophus)、斑羚 (Aepyceros melampus petersi)、野豬 (Sus scrofa)、紅腹角雉 (Tragopan temminckii) 的圖像,比較了YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x四種模型的識別精度,認為YOLOv5m 綜合性能較好。Guo 等(2020b) 在夜間采集了土狼 (Proteles cristatus)、鹿(Cervidae)、負鼠 (Didelphinae)、浣熊 (Procyon lotor) 和臭鼬 (Mephitis mephitis) 的圖像,這些圖像中的動物很多情況下被草或樹木遮擋使檢測和分類更具挑戰性,他們開發了一種多通道區域建議和分類網絡 (VCRPCN),與R-CNN 相比速度更快,且準確率提高了21.0% 。de Silva等 (2022) 應用5種不同類型的CNN 模型 (VGG16、ResNet50、InceptionV3、Xception 和Alexnet) 識別亞洲象 (Elephas maximus),發現Xception模型性能最佳,亞洲象的耳朵是關鍵特征。Shi 等 (2020) 采集了40 只東北虎8 277 張圖像,相比于LeNet、ResNet34 和ZF_Net 算法,他們構建的深度卷積神經網絡(Deep Convolutional Neural Network, DCNN) 精度較高,運行速度較快。Shi等 (2022) 收集了47只東北虎12 244 張圖像并基于CNN 開發了自動檢測和識別方法,發現右臉和左、右身條紋的組合實現了最高的準確率。這些研究涵蓋了不同種類的動物,并使用了不同類型的深度學習模型,如InceptionV3、ResNet34、YOLOv5 等。并且針對不同的環境和情況,預處理和增強可以有效提高動物識別和分類任務的準確性。特征選擇是影響動物識別和分類任務準確性的重要因素之一,深度學習被應用于野生動物的圖像識別,識別常用的特征包括斑點圖案、條紋圖案、面部特征、身體特征等 (Petsoet al., 2022),但是種群內部個體相似時,精確的個體識別較為困難,目前實現野生動物精確個體識別仍然是重大挑戰之一。此外,有研究表明,圖像中個體識別特征發生旋轉、特征部位分離度差和拍照時的光線昏暗等因素也會降低圖像識別的準確度,因此需要利用合適的深度學習模型來解決這些問題 (Houet al., 2020)。

2.3 野生動物安全監測

利用深度學習這一工具對野生動物進行安全監測,可以提高監測效率。野生動物一旦受到威脅,監測系統能夠做出快速響應。Surya 等 (2022)使用DCNN 進行動物檢測和區分的實時圖像處理,并通過物聯網監測野生動物,以避免人與野生動物的沖突,一旦檢測到野生動物,其GPS 位置將以短信形式發送到護林員。

基于良好的目標檢測和分類性能,深度學習為實現野生動物豐度估算提供了有力支撐,大大減少生物計數所花費的人力。Eikelboom 等 (2019)評估了多類卷積神經網絡RetinaNet 在航拍圖像中檢測大象、長頸鹿 (Giraffa camelopardalis) 和斑馬(Equus bruchelli) 數目的性能,發現航拍計數可以減少人工計數的誤差。由于棲息地規模廣,位置偏遠,海鳥的種群計數非常困難,而Hayes 等(2021) 利用無人機和CNN 計數黑眉信天翁 (Thalassarche melanophrys) 和南跳巖企鵝 (Eudyptes crestatus),準確率高達97.7%和87.2%。

分析野生動物的行為,例如繁殖、遷徙以及異常行為,有助于評估種群規模,及時發現野生動物的異常,對野生動物保護具有積極的指導意義。Swarup 等 (2021) 收集了來自超過218 只大熊貓的10 000 多張圖像,并結合Faster R-CNN 和ResNet 識別了大熊貓的5 種行為:行走、坐、休息、攀爬和進食以及2種面部動作:睜開或閉上眼睛和嘴巴,這些行為可以及時向大熊貓護理人員發出信號。Lei 等 (2022a) 基于YOLOv5 識別了夜間蜂猴的行為,這些行為包括進食、移動、休息和社交,有助于管理者及時發現蜂猴的健康問題。Jeantet 等 (2022) 訓練了一個完全卷積的神經網絡V-net 用于識別綠海龜 (Chelonia mydas) 的筑巢行為和產卵數量,有助于評估綠海龜種群狀況。Maekawa 等 (2020) 構建了多尺度分層注意力模型(DeepHL-Net),發現雌性海鳥的遷徙軌跡明顯比雄性海鳥更接近海岸線,棲息地和覓食地等特定地點的絕對坐標會影響海鳥的行為,為海鳥的監測保護提供思路。Roy 等 (2022) 使用GAN 模擬和捕獲海鳥覓食軌跡,提示GAN 在野生動物運動建模方面的潛在用途。Sun等 (2020) 提出了基于稠密鏈接塊改進的VGG 識別分類算法,用于識別梅花鹿體姿態如站立、起身、趴臥、回頭等4 種日常行為,解決了人工監測時梅花鹿易產生應激反應的問題。外部異常環境會導致魚類產生異常反應,如魚群回避以及異常游動等,而Yuan 等 (2021) 提出了視頻異常檢測模型TransAnomaly 可以對魚類的異常行為進行有效監測。這些研究表明,深度學習技術可以幫助我們更好地了解動物的生態習性和健康狀況,在野生動物行為識別和分類方面的應用前景廣闊。通過不斷地優化算法和模型,解決數據收集和處理、環境因素以及保護管理等問題,可以為野生動物的保護和管理工作做出更大貢獻。野生動物行為受到環境、季節、食物等多種因素的影響,因此我們還需要考慮如何對這些影響進行建模和應對。由于野生動物的行為是由環境和生理因素所引起的,種群的行為、特點及調節機制等方面的研究較少 (邊疆暉,2021),利用深度學習模型準確分析和解釋野生動物的行為是一個重要的研究方向??蒲腥藛T需要與保護管理人員密切合作,將野生動物行為識別和分類技術與野生動物保護和管理工作結合起來,實現更好的保護效果。

2.4 野生動物音頻識別

生物聲學是生物學和聲學的組合,是生物多樣性監測系統的重要組成部分,在保護容易滅絕的物種方面取得了重大進展。野生動物的音頻識別與其他種類的音頻識別流程類似,首先需要通過傳感器收集聲音信號,接著經過加窗、噪聲的過濾等預處理后,通過深度學習模型處理音頻數據提取特征圖并識別。Ruff 等 (2021) 利用CNN 識別14 種鳥類和哺乳動物發出的聲音并且創建了一個桌面應用程序,但是同時識別多個動物聲音的可靠性較低。當音頻片段中存在多種鳥類時,現有的鳥類生物聲學監測系統會陷入困境。為了克服這些挑戰,Shrestha 等 (2021) 提出了基于Faster R-CNN 的音頻分割系統,用于區分單個音頻片段中多個鳥類的發聲,分割錯誤率為21.81。鳥類聲音可以傳遞森林火災的警告,Permana等 (2022) 通過CNN,識別了正常情況下和受威脅情況下鳥的叫聲,分類準確率高達96.5%,為森林火災的預警提供幫助。Zhao 等 (2022) 設計了一種基于擠壓和激發網絡 (SENet) 的模型,從大熊貓的發聲中自動識別其年齡和性別,可用于未來野生大熊貓調查。Al Bashit 和Valles (2019) 通過改進和優化信號處理技術,成功應用于瀕臨滅絕的休斯頓蟾蜍的交配呼叫檢測和定位,以保護其免受捕食者的獵殺。他們修改帶通濾波器和幀大小并結合梅爾頻率倒譜系數 (Mel-scale frequency cepstral coefficients, MFCC) 和LSTM 遞歸神經網絡進行叫聲分析。研究結果顯示,在訓練集上達到了94.0%的準確率,在測試集上達到了92.6%的準確率,因而這一方法對于保護休斯頓蟾蜍具有積極的意義。Nanni等 (2020) 在鳥類、蝙蝠和鯨魚音頻數據集上測試了6 種不同的CNN (AlexNet、GoogleNet、Vgg-16、Vgg-19、ResNet 和Inception),發現可以對多個CNN 進行微調和融合,以實現魯棒強和廣泛適用的動物音頻分類。這些研究表明,深度學習技術在野生動物聲音識別和分類方面具有很大的應用潛力,證明了其在多物種語音識別中的可行性。未來的研究可以探索如何解決存在多種物種時的聲音識別問題,并通過不斷優化算法和模型,促進野生動物保護和管理工作。

海洋哺乳動物會產生各種各樣的聲音,而水下環境聲音嘈雜,對音頻識別造成一定困難?;ⅥL (Orcinus orca) 叫聲特別,Bergler 等 (2019) 基于ResNet 識別了虎鯨的聲音,測試準確率高達94.0%。由于虎鯨、長肢領航鯨 (Globicephala melas) 和豎琴海豹 (Pagophilus groenlandicus) 生活區域高度重疊,Lu等 (2021) 使用CNN 檢測和分類這3 種海洋哺乳動物的聲音,每個經過訓練的模型只需1.3 ms 即可檢測或分類,整體準確度達97.4%。Madhusudhana 等 (2021) 利用CNN 和LSTM 網絡模型的組合識別長須鯨 (Balaenoptera physalus) 的聲音,提示聲音的時序性在識別野生動物音頻中的潛在價值。但是Bergler 等 (2019) 的算法僅限于虎鯨聲音識別,無法適用于其他野生動物聲音的識別和分類,而Lu 等 (2021) 的方法可以識別3 種海洋動物。上述研究都探討了使用深度學習技術識別和分類野生動物聲音的問題,并通過不同的網絡結構和模型構建方式,取得了較高的識別和分類準確率。此外,我們還需要建立更加完善和廣泛的野生動物聲音數據集,并將深度學習技術與其他技術結合使用,以實現更加全面、系統和有效的野生動物保護和管理工作。目前人們對野生動物的音頻識別興趣日益濃厚,而大多數聲學研究集中在相對不受干擾的棲息地 (Gibbet al.,2019),例如森林和海洋,但是人為噪聲或者雜音可能會干擾目標野生動物的識別。野生動物聲學研究對象主要是翼手目和靈長目,而對其他陸生野生動物的研究較少,有待進一步研究 (馬海港和范鵬來,2023)。此外,野生動物群落、環境以及聲音三者的聯系有待探索 (Tobiaset al., 2014),同樣也是一個重要的研究方向之一。

3 深度學習的優勢及存在問題

在野生動物保護中,深度學習模型可以代替人工識別或監測,并通常具有更高準確性。深度學習模型經過訓練后即可實現不間斷工作,有助于減少人為活動對野生動物產生的影響,減少野生動物保護工作者在野外遇到危險的可能性。針對不同數據集,深度學習可以快速學習野生動物特征,不需要像人一樣依據自身經驗和足夠的知識儲備,主觀識別相似或者相近的野生動物。由于數據共享和開源,大眾可以廣泛訪問深度學習模型和數據集,有利于模型的優化和改進。此外,與傳統機器學習相比,深度學習無需手動提取特征 (Segebarthet al., 2020),并且能夠依靠遷移學習,將模型推廣到其他對象中,減少訓練時間。

深度學習是近年來的研究熱點之一,但還未在野生動物保護領域得到廣泛應用,深度學習仍然存在一些問題和挑戰。

野生動物的數據集獲取較為困難,相關數據集較少。深度學習模型的訓練,往往需要大量的樣本數據。而野生動物的數據集往往需要在野外通過一系列工具獲取,例如自動隱蔽攝像機、紅外相機或無人機等。如想獲取海洋生物的信息,所需要的設備要求更高,例如防水相機 (Liet al.,2022)。而在野外所獲取的原始數據非常龐大,往往摻雜著許多無用的信息。當區域內野生動物較少或者不活躍時,難以收集到目標野生動物的視頻、音頻和圖像,可能只含有大量無效的背景環境或背景音。目標野生動物的數據太小,則可能導致模型的泛化能力變差,識別準確率降低,但過多的數據又可能會因模型過擬合導致在測試集中的準確率降低。此外,由于植物遮擋、天氣、拍攝角度等問題,所收集的數據質量可能不高,需要對這些低質量的數據進行人工或者計算機的預處理,否則會影響后續深度學習建模。因而,建立更多高質量野生動物數據集以及用更高效便捷方式獲取野生動物的數據是當前面臨挑戰之一。

深度學習模型訓練所需時間和金錢成本較高。雖然深度學習模型在應用時速度非???,但在訓練深度學習模型時耗時較長,并且需要具有強大計算能力的硬件支持。Hou 等 (2020) 使用GPU NVIDIA Quadro P5000 (16 GB) 訓練65 000 張大熊貓面部圖像,耗時7 h。另外,所用的模型本身可能過于龐大,訓練過程中為了達到較高準確率和獲得更高性能,需要調整各類參數。但昂貴的硬件、復雜的參數以及耗時的訓練,一定程度上限制了深度學習在野生動物保護中的應用。

上述問題是未來需要研究和探索的,首先盡管目前已經構建了一些野生動物的公共數據集,但是公共數據集較少,因而在未來需要構建更加全面的野生動物數據集,以便于全世界的研究人員測試并改進優化模型;其次,對于樣本數較少的數據集,不僅可以采用旋轉、平移、鏡像、裁剪等方法 (丁劍勇等,2022) 實現數據增強,還可以建立針對小樣本的深度學習模型用于數據增強,比如GAN 可以生成比原始圖像更清晰、更真實的圖像 (Zhanget al., 2023);此外,輕量級的深度學習模型具有體積小和檢測速度快的優勢 (楊銘倫等,2022),因而構建輕量級的深度學習模型既可以降低硬件的計算要求,還可以嵌入便攜式設備并提高處理數據的效率。輕量級的深度學習模型和野外便攜式監測設備相結合有助于提高監測效率,是未來的研究方向之一。

4 總結和展望

本文介紹了深度學習的原理,回顧了深度學習在野生動物保護方面起到的重要作用,并分析了深度學習的優勢以及存在的問題。野生動物保護方法正在經歷由人工向自動化逐漸轉變的過程,由純人工保護發展到紅外相機、衛星遙感、無人機等設備輔助人工保護,進一步發展出設備結合深度學習輔助人工保護。傳統上,想要保護野生動物需要大量專業的生物學家在范圍廣闊且充滿危險的野外尋找并識別目標野生動物。而現在,可以將設備部署到野外,通過深度學習模型直接自動化識別野生動物,降低了人為因素對野生動物棲息地的影響,減少人工處理設備所產生的大量數據。此外,非專業人士也可以參與野生動物保護,無需大量人力投入,也減少了野外探索的時間,避免在野外遇到危險,識別并追蹤野生動物會更加容易。依托深度學習,在未來能夠實現野生動物個體及群體的精準監測與保護。針對具體單一個體,深度學習可以分析個體的行為以及健康狀態,進一步識別個體和個體之間的通信交流及互動情況,有助于了解該野生動物群體的狀態,為野生動物保護提供啟示。目前已經建立的各類自然保護區和國家公園,保護成效顯著 (游劍瀅,2022),再結合計算機技術、生物學、生態學、機械等學科,能夠開發綜合性一體化野生動物保護預警平臺,實現從個體到群體的多方位保護機制。

隨著深度學習算法的不斷發展,其在野生動物保護中的應用將越來越廣泛。目前,深度學習作為一種出色的技術已經應用于野生動物視頻識別、圖像識別、安全監測以及音頻識別。但是與任何其他強大的技術一樣,深度學習并不完美,也存在著一些問題,比如數據集的獲取以及深度學習模型的缺陷。因而,計算機、數學、生態學以及生物學等不同領域的專家需要針對這一系列問題進一步深入研究并密切合作。隨著深度學習模型的開發和優化以及各類公共野生動物數據集的不斷出現,相信將來深度學習可以更好地助力野生動物保護,使野生動物遠離滅絕的威脅。

猜你喜歡
野生動物卷積深度
基于3D-Winograd的快速卷積算法設計及FPGA實現
保護野生動物
深度理解一元一次方程
保護野生動物
保護野生動物
保護野生動物
從濾波器理解卷積
深度觀察
深度觀察
深度觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合