藺想紅,張 寧,崔文博,馮麗霞
(西北師范大學計算機科學與工程學院,蘭州730070)
神經系統對于機體內外環境的各種形式的變化,均以神經元發放脈沖序列的形式做出響應。實際上,神經放電序列隨著刺激的變化展現出豐富多彩的樣式,這些樣式的頻率可能相同,但時間模式卻千差萬別,意識到基于統計特性的頻率編碼并不能全面地反映神經系統的刺激-響應模式,而且越來越多的神經科學研究成果表明,基于脈沖精確定時表示和處理神經信息的重要性[1-2]?;谏锟山忉屝缘拿}沖神經網絡作為第3代神經網絡,可以通過脈沖序列表現和整合不同維度的信息,且能以自組織和自適應的方式處理大規模數據,是進行復雜時空信息處理的有效工具[3]。
近年來,對于脈沖神經網絡的研究,特別是用于解決視覺圖像處理等復雜問題的脈沖神經網絡的建模與計算技術越來越受到人們的關注[4-5]。文獻[6]采用了脈沖響應模型的神經網絡進行邊緣檢測和圖像分割。這種方法的特點是神經信息編碼采用群體編碼策略,脈沖神經網絡的連接權值必須通過學習方法調整。文獻[7-8]應用脈沖頻率編碼,提出了對彩色圖像進行邊緣檢測與圖像分割的整合發放神經元網絡模型。這種方法的重點是受視覺神經系統的啟發,將圖像的像素值通過特定結構的脈沖神經網絡轉換為脈沖序列,但其實質仍然是基于頻率編碼的傳統神經網絡對圖像進行分割。同樣,文獻[9]分析了脈沖神經網絡的不同模型,并提出新方法應用于圖像處理中得到了優化的結果。文獻[10]結合目前在機器人視覺導航技術中的已有的圖像分割方法,提出了基于脈沖神經網絡的圖像分割方法,并應用于盲人在室內走廊的導航和避障。此外,脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN)是一種特殊的脈沖神經網絡模型[11],該模型具有對圖像二維空間相近、灰度相似的像素進行分組的特點,在圖像分割領域顯示出了獨特的優越性,并取得諸多研究成果[12]。但是,不同圖像的內在特征直接決定了PCNN的參數選擇和分割結果,因此,要對復雜圖像進行有效分割,對于PCNN模型眾多參數的選擇比較困難。
本文提出一種基于首脈沖觸發時間(Time-tofirst-spike,TTFS)編碼的脈沖神經網絡圖像分割方法。應用TTFS編碼策略對灰度圖像的像素值進行編碼,將像素值轉換為單個脈沖的發放時間。脈沖神經網絡采用了整合發放神經元模型,并通過輸入層感受野中的神經元發放的脈沖序列對中間層神經元的膜電位進行計算。
采用整合發放神經元模型構建脈沖神經網絡,整合發放神經元模型可用下面的一階微分方程描述如下[13]:
其中,v(t)表示神經元的膜電位;τm表示膜時間常量;Vrest表示靜息電位。當從突觸輸入一個脈沖時,神經元的膜電位瞬時更新v(t)→v(t)+w,其中,w表示該突觸的權值。如果神經元的膜電位累積到閾值電位Vthresh時,神經元立即發放一個輸出脈沖,記脈沖發放時間為tf:
在神經元發放脈沖之后,進入復極化過程,膜電位迅速減少到神經元的復位電位Vreset:
隨后,通過各種生物過程,神經元膜電位將保持在低于Vreset的值,進入超極化過程。在超極化期間神經元膜電位很難達到閾值,不再發放脈沖。在超極化過程之后,神經元膜電位恢復到復位電位Vreset,根據式(1)進行膜電位的更新,累積到閾值電位Vthresh時,再次發放脈沖,并且重復上述過程[14]。
但是由于本文采用的脈沖編碼方法是TTFS,從而只需記錄神經元首次發放脈沖的時間,且當神經元首次發放脈沖以后,不需要記錄以后的脈沖對神經元的影響,所以也無需考慮復位電位,從而簡化了整合發放神經元模型的參數設置。
為了對整合發放神經元模型進行精確的事件驅動模擬[15],下面給出了描述神經元膜電位v(t)變化的解析表達式:
其中,tl表示神經元膜電位的上次更新時間,在沒有新脈沖到來之前,膜電位將按膜時間常量τm衰減直到靜息電位Vrest。
在脈沖神經網絡中,模擬量不能直接被計算,需要將其編碼為脈沖序列之后再輸入到脈沖神經網絡中。文獻[16]通過大量生物實驗發現大腦在進行每個處理步驟時,神經元在接收刺激后產生第一個脈沖的時間包含了刺激的所有信息。因此,根據生物神經元處理信息的這些現象,對圖像信息采用TTFS編碼策略,即神經元只發放一個脈沖,且脈沖發放時間與輸入模擬量的值相對應。因此,TTFS編碼具有很好的生物可解釋性,并且使用非常簡單,目前在生物神經元的信息處理和脈沖神經網絡的數據編碼方面具有廣泛應用[17-18]。
本文將TTFS編碼策略應用到脈沖神經網絡的圖像分割問題中,并將輸入模擬量線性地轉換為脈沖發放時間。將像素灰度值為255時對應的脈沖發放時間定義為Tmaxms,將像素灰度值為0時對應的脈沖發放時間賦值為0 ms,具體可根據下面的公式實現模擬量到脈沖時間的轉換:
其中,tf表示由像素灰度值編碼的脈沖發放時間;Tmax表示像素灰度值編碼脈沖的最大發放時間;p表示圖像的像素灰度值。
神經科學家們根據人類的視覺系統能有效實現圖像的分割和識別,發現了各種各樣的神經細胞的感受野,且它們廣泛分布在一些簡單細胞到外膝狀體細胞以及視覺皮層中的神經細胞中。感受野用來感受圖像的刺激產生脈沖序列。脈沖神經網絡的輸入層用于將圖像的像素灰度值轉換為脈沖序列,轉換方法則依據式(5)所示的TTFS編碼策略。給定一幅大小為W×H的圖像,則相對應的輸入層中就有W×H個神經元,其中,W和H分別表示圖像的寬度和高度。在輸入層中,以每一個神經元為中心構成一個大小為N×N的矩形感受野,N的取值一般為3,5和7等奇數。如果神經元位于輸入層的邊緣位置,則構成不了一個完整的N×N的感受野,那么該矩陣中空余的位置將不發放脈沖。中間層中的每一個神經元將接收輸入層中與該神經元對應的神經元為中心的感受野的輸入,該感受野矩陣中的每一個神經元與中間層的神經元之間的連接權值wij的計算公式如下:
其中,Wmax表示神經元之間的交互強度或權值尺度;Ii(i=1,2,…,W×H)為輸入層中的任意一個神經元;Rj(j=1,2,…,N×N)為感受野矩陣中的任意一個神經元;F(Ii)和F(Rj)分別表示神經元對應的像素灰度值表示像素的灰度差值;X(Ii)和X(Rj)分別表示神經元對應的像素坐標值;‖X(Ii)-X(Rj)‖表示像素坐標之間的歐氏距離;d=3為常數。中間層神經元的膜電位v(t)可根據脈沖的發放時間和神經元之間的連接權值來確定。中間層的每一個神經元的輸入來自于感受野中的脈沖序列,并且按照脈沖發放時間的先后順序依次輸入,根據式(1)計算膜電位v(t),當膜電位v(t)超過閾值電位Vthresh時發放脈沖,記錄下脈沖的發放時間tf,并忽略后面的脈沖輸入。當所有脈沖都輸入到中間層神經元之后,若膜電位v(t)沒有超過閾值電位Vthresh,則不發放脈沖,記脈沖發放時間為∞。輸出層的每一個神經元都對應中間層的每一個神經元。在輸出層設置分割閾值Tthresh,如果中間層神經元的脈沖發放時間超過分割閾值,則不發放脈沖,并將輸出層神經元所對應的像素灰度值設為255。否則發放脈沖,并將輸出層神經元所對應的像素灰度值設為0[19]。下面給出基于脈沖神經網絡模型的圖像分割方法:
對于圖像分割結果的評價,學者們已經進行了大量研究,并提出了許多評價準則,如最大類間差準則、最大Shannon熵準則、最大邊緣數準則、最大交叉熵準則等。本文采用了常用的最大Shannon熵的方法來評價分割結果。根據Shannon熵的概念,對于灰度范圍為{0,255}的二值圖像,其直方圖的熵定義為:
其中,P0表示分割后的二值圖像中像素值為0的概率;P1表示分割后的二值圖像中像素值為255的概率。利用最大Shannon熵的方法來評價分割結果,H(P)取值越大,其對應的分割結果越好[19]。
本文采用256×256像素大小的Lena圖像為基準圖像進行實驗,實驗中所用的參數如表1所示。根據本文方法,圖像分割的結果主要由感受野大小N×N、閾值電位Vthresh與分割閾值Tthresh這3個參數決定。因此,在下面的實驗中,3個參數以表1中的值為基準值,固定其中的2個參數,變化另一個參數,根據Shannon熵分析該參數對圖像分割結果的影響。
表1 Lena圖像分割的參數設置
設置閾值電位Vthresh和分割閾值Tthresh的值為-55 mV和7.4 ms,對不同的感受野大小進行模擬實驗,分別取3×3像素、5×5像素和7×7像素大小的3種感受野。從表2和圖1的實驗結果可以看出,對選取的3種感受野大小,隨著感受野的增大,Lena圖像分割結果所取得的Shannon熵隨之變大,如果感受野繼續增大,所取得的Shannon熵變化變小。當感受野的大小為7×7像素時,Lena圖像分割結果的Shannon熵為0.999 984。但是,隨著感受野的增大,感受野中輸入中間層神經元的脈沖數增加,圖像分割方法的計算時間復雜度上升。因此,從方法的復雜度和不同感受野大小所取得的Shannon熵結果兩方面考慮,本文選取感受野大小5×5像素為脈沖神經網絡圖像分割模型的基準值。
表2 不同感受野大小對應的Shannon熵結果
圖1 不同感受野大小對應的圖像分割結果
為了檢驗閾值電位Vthresh對Lena圖像分割結果的影響,將其他2個參數固定,其中,感受野大小為5×5像素,分割閾值為7.4 ms,然后變換不同的閾值電位 Vthresh,并求得最后的 Shannon熵如表3所示。從表3的分割結果可以看出,當閾值電位從-65 mV~-50 mV由小到大進行取值時,開始階段Shannon熵隨著閾值電位的增大而增大,當閾值電位增大到-55 mV時,所對應的Shannon熵取得最大值0.999 953,此后隨著閾值電位的增大,Shannon熵隨之而減小。圖2給出了不同閾值電位對應的圖像分割結果。
表3 不同閾值電位對應的Shannon熵結果
圖2 不同閾值電位對應的圖像分割結果
通過以上2個實驗,分析了感受野大小和閾值電位對圖像分割的影響。根據所取得的Shannon熵分析分割閾值Tthresh對圖像分割結果的影響。從表4的結果可以看出,閾值電位變化相同的規律:開始階段分割圖像的Shannon熵隨著分割閾值的增大而增大,當分割閾值為7.4 ms時,達到最大值0.999 953,隨后隨著分割閾值的增大而Shannon熵減小。
表4 不同分割閾值對應的Shannon熵結果
從圖3的結果看,選擇合適的分割閾值,分割圖像的Shannon熵越大,其分割圖像的細節越豐富,且總體分割效果越好。通過以上對Lena圖像的分割實驗來看,可以得到以下結論:(1)本文方法在感受野大小為5×5像素,閾值電位為-55 mV,分割閾值為7.4 ms時求得分割圖像的 Shannon熵為0.999 953,該方法具有良好的分割性能。(2)通過對感受野大小、閾值電位和分割閾值3個參數的分析,每個參數的變化都會對最后的分割結果造成較大的影響。因此,通過對以上3個參數的選擇,可以得到不同要求的圖像分割結果,以滿足相應的應用目的。此外,本文實驗中的3個參數是對256×256像素大小的Lena圖像進行分割時設置的,而對于不同的圖像,它的平均灰度也會不同,所以,在對其他圖像進行分割時,需要選擇合適的參數設置以達到最佳的分割結果。
圖3 不同分割閾值對應的圖像分割結果
為了檢驗本文的方法對于一些具有噪聲的復雜圖像的分割效果,選取目前文獻中采用最廣泛的具有代表性的最大類間方差法(Otsu)[20]和基于最大熵的脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN)方法[21]進行實驗。圖4 和圖5給出了運用本文方法與Otsu方法、PCNN方法對復雜圖像進行分割的實驗結果。在實驗中,圖4中圖像的分割閾值 Tthresh為6.3 ms;圖5中圖像的分割閾值Tthresh為2.6 ms;其他參數取表2中的值。
圖4 Rice圖像添加噪聲后的分割結果
圖5 具有背景噪聲工程圖紙的分割結果
圖4給出了對于添加了5%高斯噪聲和5%白噪聲的Rice圖像(圖4(a)),應用3種方法得到的圖像分割結果。對于有噪聲圖像,Otsu方法和PCNN方法由于受到較強烈的干擾,不能清楚得對圖像進行有效的分割(圖4(b)、圖4(c))。本文方法則受影響程度較少,仍能得到較為正確的分割結果(圖4(d)),說明該方法對于噪聲有很強的魯棒性。
圖5給出具有背景噪聲的工程圖紙(圖5(a))的圖像分割結果,可以看出,本文方法通過對分割參數的合理設置,較好地體現了圖像灰度之間的對比關系,并且具有較好的聚類特征,可以增大分割目標與背景噪聲的距離,從而取得了較好的分割結果(圖5(d))。在圖像沒有背景噪聲的條件下,Otsu方法和PCNN方法也具有很好的亮度與對比度適應性。但是,在實際應用中,通過攝像頭采集的圖像通常存在較強的背景噪聲,并且伴隨較大的亮度與對比度變化,導致Otsu方法和PCNN方法分割效果變差。因為當亮度與對比度改變使分割目標的灰度與背景噪聲的灰度接近時,圖像的直方圖形狀會發生明顯改變,這樣Otsu方法會將背景噪聲分類在分割目標中,從而導致背景噪聲淹沒分割目標(圖5(b))。此外,PCNN方法要好于Otsu方法,但是分割結果仍然包含較大的背景噪聲,不能有效地對圖像進行分割(圖5(c))。
本文提出一種基于TTFS編碼的脈沖神經網絡圖像分割方法,采用脈沖神經網絡模型,以及TTFS策略編碼圖像的像素值,應用分割閾值劃分所有脈沖發放時間,從而在輸出層得到分割的二值圖像。實驗結果表明,脈沖神經網絡模型的感受野大小、閾值電位和分割閾值等參數會影響圖像的分割結果,且對具有噪聲的復雜圖像取得了比Otsu方法和PCNN方法更好的分割結果。今后將考慮在中間層加入側向抑制突觸,或者將脈沖神經網絡的學習方法引入脈沖神經網絡的圖像分割模型,以獲得更好的圖像分割結果。
[1] Bohte S M.The Evidence for Neural Information Processing with Precise Spike-times:A Survey[J].Natural Computing,2004,3(2):195-206.
[2] Quiroga R Q,Panzeri S.Principles of Neural Coding[M].Boca Raton,USA:CRC Press,2013.
[3] Ghosh-Dastidar S,Adeli H. Spiking Neural Networks[J].International Journal of Neural Systems,2009,19(4):295-308.
[4] Jose J T,Amudha J,Sanjay G.A Survey on Spiking Neural Networks in Image Processing[M]//El-Alfy E M,Thampi S M,Takagi H,et al.Advances in Intelligent Informatics.Berlin,Germany:Springer,2015:107-115.
[5] Ella H A,Al-Qaheri H,El-Dahshan E S A.Prostate Boundary Detection in Ultrasound Images Using Biologically-inspired Spiking Neural Network[J].Applied Soft Computing,2011,11(2):2035-2041.
[6] Meftah B,Lezoray O,Benyettou A.Segmentation and Edge Detection Based on Spiking NeuralNetwork Model[J].Neural Processing Letters,2010,32(2):131-146.
[7] Wu Qingxiang,McGinnity T M,Maguire L,et al.Colour Image Segmentation Based on a Spiking Neural Network Model Inspired by the Visual System[C]//Proceedings of the 6th International Conference on Intelligent Computing.Berlin,Germany:Springer-Verlag,2010:49-57.
[8] Kerr D,Coleman S,McGinnity M,et al.Biologically Inspired Edge Detection[C]//Proceedings of the 11th International Conference on Intelligent Systems Design and Applications.Washington D.C.,USA:IEEE Press,2011:802-807.
[9] Chaturvedi S,Khurshid A A,Dorle S S.Reconfiguration of Spiking Neural Network for Optimization with Applications to Image Processing[C]//Proceedings ofthe 6th International Conference on Emerging Trends in Engineering and Technology.Washington D.C.,USA:IEEE Press,2013:191-192.
[10] Wang Xiaowei,Wu Qingxiang,Zhang Zhenming,et al.Segmentation Based on Spiking Neural Network Using Color Edge Gradient for Extraction of Corridor Floor[C]//Proceedings of the 3rd International Conference on Multimedia Technology.Berlin,Germany:Springer-Verlag,2014:275-285.
[11] Wang Zhaobin,Ma Yide,Cheng Feiyan,et al.Review of Pulse-coupled Neural Networks[J].Image and Vision Computing,2010,28(1):5-13.
[12] Monica S M,Sahoo S K.Pulse Coupled Neural Networks and Its Applications[J].Expert Systems with Applications,2014,41(8):3965-3974.
[13] Izhikevich E M.Dynamical Systems in Neuroscience:The Geometry of Excitability and Bursting[M].Cambridge,USA:MIT Press,2007.
[14] 蔡榮太,吳慶祥.基于脈沖神經網絡的紅外目標提?。跩].計算機應用,2010,30(12):3327-3330.
[15] 藺想紅,張田文.指數突觸電導IF神經元模型及事件驅動模擬策略[J].電子學報,2008,36(8):1495-1501.
[16] Thorpe S,Fize D,Marlot C.Speed of Processing in the Human Visual System[J].Nature,1996,381(6582):520-522.
[17] Kammara A C,Koenig A.Contributions to Integrated Adaptive Spike Coded Sensor Signal Conditioning and DigitalConversion in NeuralArchitecture[C]//Proceedings of the 17th ITG/GMA Symposium Sensors and Measuring Systems.Nuremberg,Germany:VDE Press,2014:1-6.
[18] Len~ero-Bardallo J A,Serrano-Gotarredona T,Linares-Barranco B.A Five-decade Dynamic-range Ambient-lightindependent Calibrated Signed-spatial-contrast AER Retina with 0.1-ms Latency and Optional Time-to-firstspike Mode[J].IEEE Transactions on Circuits and Systems,2010,57(10):2632-2643.
[19] 崔文博,藺想紅,徐滿意.脈沖神經網絡圖像分割的編碼方法[J].計算機工程,2012,38(24):196-199.
[20] Vala M H J,BaxiA.A Review on Otsu Image Segmentation Algorithm[J].International Journal of Advanced Research in Computer Engineering &Technology,2013,2(2):387-389.
[21] Zhan Yunjun,Yuan Yanbin,Huang Jiejun,et al.RS Image PCNN AutomaticalSegmentation Based on Information Entropy[C]//Proceedings of the 2nd InternationalConference on Multimedia and Information Technology.Washington D.C.,USA:IEEE Press,2010:200-203.