?

基于卷積神經網絡和熵權法的胡蜂識別及危害等級判別模型的研究

2021-07-19 00:45李松燁
理論與創新 2021年6期
關鍵詞:熵權法圖像識別卷積神經網絡

【摘? 要】2019年12月,華盛頓州農業部確認胡蜂出現在美國本土,這一生物入侵現象對經濟、社會、生態和公共衛生等方面都是一場無情的災難。本文遵循“觀察規律-實踐應用-合理預測”的框架,收集了關于該黃蜂的其他各類情報和詳細信息,提出了一系列新穎的模型來輔助政府機構把握這種新生物的時空傳播規律并應對生物入侵時繁雜的處理工作。本文致力于解決美國農業部處理混亂而頻繁的目擊報告時的兩大困境——人工識別圖像成本過高和處理工作的隨意性和盲目性大。我們使用bootstrap抽樣方法解決了圖片正負樣本不均衡的問題,將調整后的圖像數據輸入經過特殊調參的卷積神經網絡中,得到了良好的圖像識別效果,準確度達99%以上。且著眼于評價的角度,結合圖像為正面的概率、距離和活躍時間段這三個指標,使用熵權法賦予權重配以模糊綜合評價,按實際危機程度劃分出了四個目擊報告處理等級,處理等級越高,就越優先處理。

【關鍵詞】生物入侵;圖像識別;卷積神經網絡;熵權法

引言

2019年12月,華盛頓州農業部確認胡蜂出現在美國本土,這一生物入侵現象對社會各個層面和職能機構都是一場無情的災難。在經濟方面,美國每年投入到生物入侵的成本估計超過1000億元,近期一些研究表明,單這種亞洲大黃蜂的控制費用在美國就高達3140萬美元。生物入侵的一個典型后果就是破壞生態系統正常運行和生物多樣性,甚至經常成為壓死瀕臨滅絕的物種的最后一根稻草。胡蜂最初被紐約時報報道時被稱之為“殺人大黃蜂”,這也是因為經常捕食本地一些重要的經濟物種,比如蜜蜂。胡蜂的強力針刺在高敏感性個體中會引起嚴重過敏反應,甚至導致死亡。尤其在當前新冠疫情大流行的全球困境當中,病毒或許會通過對種群人口統計學和種間相互作用的影響,為生物入侵的成功做出貢獻,惡化當前狀況。因此,收集關于該黃蜂的其他各類情報和詳細信息,例如準確識別、擴散分布情況和有效的控制措施等,為政府機構提供參考和建議,及時遏制生物入侵帶來的連鎖消極后果,是迫在眉睫的。

1.基于卷積神經網絡的胡蜂識別模型

1.1圖像處理

采集到的positive數據僅有14條,并且對應的圖片文件也僅有14張,遠遠小于negative的圖片數量,這意味著我們訓練數據存在極大不平衡,這使得我們想要分類預測出的positive的案例在類中難以具有代表性。因此我們主要通過以下方法對圖像進行預處理,調整訓練數據的數量。

Bootstrap抽樣。由于raw圖像只有67張,通過數據增強后的樣本數量也只有1311張,可能會導致模型對樣本特征的識別限制特別緊張,魯棒性變差。因此我們將positive和negative記錄比例規定為4:6。鑒于negative記錄共有3389條,positive記錄仍稍顯不足。Bootstrap是一種用從給定訓練集中有放回的均勻抽樣,十分適合小樣本數據集。因此我們進一步使用bootstrap抽樣方法,最終得到了2259張positive記錄。

1.2參數調整

我們遵循Francois Chollet的建議,對CNN進行了一些特殊的改進,能夠有效提高模型準確度和效率。

(1)使用L1正則化,為模型的泛化添加一個權值累加項,讓權值變得更小。

(2)使用Dropout,在每輪訓練過程中隨機放棄一些神經元節點,相當于減少了權值數量。

(3)使用Sigmoid激活函數和binary_crossentropy損失函數,可以很好適應二分類問題

(4)使用已在大型數據集上預先訓練過的網絡VGG16架構,提前掌握大多數計算機視覺問題有用的特征,特別適合于本文中擁有少量數據的情況。

(5)微調VGG16模型的最后一個卷積塊,先實例化VGG16的卷積模型并加載其權重,再在頂部添加我們自己調過各類超參數的全連接層,并加載其權重,最后凍結VGG16模型最后一個卷積塊中的所有層。

(6)使用SGD優化器,確保每次只選擇一個樣本來更新梯度,使得學習速度大大增強。

隨著訓練次數的增加,剛開始時,測試集的損失度較大,但隨著訓練次數的增加,逐漸趨于平緩,最后接近于0,訓練集的損失度剛開始訓練時也較大,接近0.5,但后面也逐漸接近0。而不管是訓練集還是測試集,在第十輪后,準確度都逐漸接近1,從這些指標上看,模型訓練的結果較為理想。

為了驗證訓練的圖像識別模型的精確度具體如何,我們又從其他網站找到一些已經被驗證為亞洲大黃蜂的圖片來驗證模型的準確度。我們使用從其他網站中收集來的圖片都可以實現一個很好的識別效果。

2.模糊綜合評價

根據公眾提供的目擊報告中的圖像,我們已經可以較準確的找出正確目擊并排除負面報告,但我們仍未解決處理工作的優先緩急問題。當面對大量報告時,若能準確制定出調查和處理工作的優先順序,就能大大減少工作量。因此我們在卷積神經網絡的基礎上進一步綜合其余指標,使用模糊綜合評價方法得到了一個總的評價模型。

2.1指標選擇

胡蜂的活動明顯的時間和空間規律。據胡蜂相關的生物研究我們可以很輕松得到它年節律,但考慮到胡蜂剛出現在華盛頓州,與先前研究中具有不用的地勢和氣候等環境特征,因此可能會出現不同的活躍期。據此我們根據每月的舉報提交數量來觀察胡蜂的活躍期。如圖2可知,我們可將胡蜂的活動周期大概分為4個階段,其中7-9月為活躍期,其次為5-6月,4月和10月,以及11月-次年3月,我們依次使用“1,2,3,4”來代表這幾個階段t。

當某個地點出現一只胡蜂時,意味著它周圍也有極大可能會有其余同伙。因此我們將每個被標記為unprocessed狀態的目擊報告中的地點和已確定為positive狀態的目擊報告中的地點計算距離值,再依次比較,選出最短距離d,并將其也作為一個重要指標。

此外,我們之前通過卷積神經網絡得到的圖片為正面的概率顯然也是一個重要的指標,記為α。

2.2權重確定

在本研究中,由于當前經驗和規律掌握不足,對現實情況的未知性太大,因此難以找到專家評判或者自行主觀確定權重,因此我們考慮使用熵權法計算三個指標各自的權重。熵權法是一種客觀的綜合評價方法,得到的權重依賴于數據本身的離散性,即熵。當某個指標的離散程度越大,它的熵值越大,也表明該指標對最終評價影響的權重越大。

通過上述熵權法計算權重,我們三個指標所構成的因素集為U={γ,d,t},相對應的權重向量A=[0.857036,0.008431,0.134533]。我們將官方處理優先順序分為四個等級,等級越高,越應該得到優先處理。因此我們的等級集V={1,2,3,4}。

2.3模型構建與求解

我們將σ對各等級的隸屬度函數定義為A(σ),將d對各等級的隸屬度函數定義為B(d),將t對各等級的隸屬度函數定義為C(t)。由于σ和d都是連續變量,可以分段表示,適合使用梯形隸屬度函數,而t是離散表示的,適合用三角形隸屬度函數。將指標σ作為例,根據表1中的分段規則,可以得到如下隸屬度函數的圖形,如圖2。

最后,我們使用該模型對全部15個unprocessed記錄進行總評價,其中不包含圖片、視頻等有效文件的數據我們直接打分為0,因為這類數據實驗室無法進行判斷,只能歸為unverified,我們對有效數據(5)的結果進行排序并輸出,按照加權平均原則,可以得到每個等級中對應的unprocessed記錄,能夠有效幫助到相關部門做出優先處理決策。

3.結語

胡蜂在華盛頓州的出現讓社會公眾陷入一種迷茫與焦慮狀態之中,目擊報告大幅增長,這給美國農業部造成了巨大的處理壓力。他們主要面臨兩個難點:一是人工識別胡蜂成本太高而尚未找到一種較好的智能識別方法;二是面對不停息的頻繁報告他們難以根據實際危機程度劃定優先處理等級。

首先,本文利用卷積神經網絡以識別正確的胡蜂的圖像,可在一定程度上取代人工識別,準確度較高。

接下來,本文利用該圖像正確的概率結合胡蜂節律周期和活動空間等指標,并使用熵權法賦予各個指標權重,進行模糊綜合評價得出優先處理的等級,最后使用unprocessed狀態下的目擊報告作為測試集進行測試判斷。

參考文獻

[1] Meyerson, L. A., Carlton, J. T., Simberlo?, D.,& Lodge, D. M. (2019). The growing peril of biological invasions.

[2] Barbet-Massin, M., Salles, J. M., & Courchamp, F. (2020). The economic cost of control of the invasive yellow-legged Asian hornet. NeoBiota, 55, 11-25.

[3] Wilcove, D. S., Rothstein, D., Dubow, J., Phillips, A., & Losos, E. (1998). Quantifying threats to imperiled species in the United States. BioScience, 48(8), 607-615.

[4] McClenaghan, B., Schlaf, M., Geddes, M., Mazza, J., Pitman, G., McCallum, K., ... & Otis, G. W. (2019). Behavioral responses of honey bees, Apis cerana and Apis mellifera, to Vespa mandarinia marking and alarm pheromones. Journal of Apicultural Research, 58(1), 141-148.

[5] Stankus, T. (2020). Reviews of Science for Science Librarians:Murder Hornets: Vespa Mandarinia Japonica. Science & Technology Libraries, 39(3), 244-252.

[6] Torchin, M. E., & Mitchell, C. E. (2004). Parasites, pathogens, and invasions by plants and animals. Frontiers in Ecology and the Environment, 2(4), 183-190.

[7] Chollet, F. (2016). Building powerful image classi?cation models using very little data.Keras Blog.

[8] Li, G., Cheng, Y. Q., Dong, L., & Wang, W. (2014). Study of the gini coe?cient objective weights. Manag. Rev, 26, 12-22.

作者簡介:李松燁(2000.09-),男,漢族,河北邢臺人,本科在讀,研究方向為信息管理與信息系統

猜你喜歡
熵權法圖像識別卷積神經網絡
基于計算機視覺的圖像識別技術研究
人工智能背景下圖像識別技術淺析
基于字典學習的正則化魯棒稀疏表示腫瘤細胞圖像識別
基于深度卷積神經網絡的物體識別算法
大學周邊健身房滿意度調查報告
基于熵權法的京津冀區域信息化協調發展規律模型及其應用
圖像識別交互系統
基于熵權法的西安市外向型經濟發展綜合評價研究
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合