?

基于生物脈沖信號的視覺神經編碼驗證方法研究

2024-01-27 06:57張燚鈞黃鐵軍
電子與信息學報 2024年1期
關鍵詞:編碼方式解碼度量

張燚鈞 劉 健 黃鐵軍

①(中移(蘇州)軟件技術有限公司 PaaS產品部 蘇州 215004)

②(利茲大學計算學院 利茲 LS29JT)

③(北京大學計算機學院 北京 100190)

1 引言

人類外部環境活動產生的各種感知信息通過不同模態(視覺、聽覺、觸覺等)傳遞到大腦中。視覺是大腦感知系統的重要組成,研究表明人類感知信息中的70%~80%來源于視覺[1]。視覺通路起始于視網膜,視網膜首先把接收到的光信號轉換為神經信號,然后這些神經信號通過外側膝狀體(Lateral Geniculate Nucleus, LGN),最后傳導到初級視覺皮層(V1), V2, V4,下顳葉皮層(Inferior Temporal, IT)等高級視覺皮層。視網膜在整個視覺系統中發揮著重要作用,其中所有視覺信息都由視網膜神經節細胞(Retinal Ganglion Cells, RGC)發放的序列形式的脈沖(Spikes)信號表示。這些脈沖信號隨后被傳遞到視覺系統的下游區域。由于視網膜不接收來自視覺系統中較高層級的反饋,RGC可以被抽象為一種可以用于處理視覺信息的計算設備。

視網膜采用脈沖信號序列的形式向大腦傳輸外界視覺刺激信息。將外部刺激信號轉換為脈沖信號或者其他神經信號模態(如雙光子鈣成像信號(twophoton calcium imaging signal)等),這個過程稱之為神經編碼。很多生物科學和計算神經科學領域的研究人員已經對視網膜中各種細胞的編碼機制進行了大量研究工作,揭示了視網膜實現視覺計算功能的多種神經機制[2-7]。根據視網膜中不同類型神經元及不同神經回路的特性,研究者開發了多種神經編碼模型[8-14]。其中,基于神經元或神經電路物理性質的神經編碼模型被稱為生物物理模型。經典的生物物理模型包括線性-非線性模型(Linear-Nonlinear model, LN)[15]、廣義線性模型(Generalized Linear Model, GLM)[12]、非線性輸入模型(Nonlinear Input Model, NIM)[16]等。生物物理模型的優勢在于可以直接擬合生理實驗數據,并且推斷神經元中的生物物理組件?;谝暰W膜神經系統構造的生物物理模型在研究視網膜在簡單白噪聲圖像刺激下的編碼特性時非常有效。

近年來,很多計算神經科學領域的研究者開始關注并利用人工神經網絡技術建模視覺系統中的神經編碼過程[17-23]。文獻[24]使用一層卷積神經網絡對V1視覺皮層神經元編碼進行建模,該模型成功編碼出雙光子鈣成像信號響應。文獻[25]等人使用卷積神經網絡編碼IT皮層的脈沖響應。文獻[18]在卷積神經網絡中加入循環側向連接用以構建視網膜編碼模型。這類神經編碼模型的主要思想是利用人工神經網絡直接學習視覺輸入刺激和神經元響應之間的映射關系。

神經解碼則與神經編碼相反,其目的是解碼出各種類型神經信號模態中隱含的視覺刺激信息[26]。早期的神經解碼方法主要是基于線性解碼方法[27,28]。為了實現對復雜的自然場景刺激進行神經解碼,研究者提出了非線性解碼方法和基于深度神經網絡的解碼方法。一些研究者已經將深度學習方法成功應用在脈沖信號和雙光子鈣成像信號的神經信息解碼任務中,取得了巨大突破[29,30]。傳統的神經解碼方法主要關注視覺刺激的重構效果。這類方法通常將編碼和解碼兩者割裂開來。而本文提出的編碼驗證方法將兩者統一起來,使用解碼作為編碼的驗證手段。在徐齊團隊的工作[31]中,神經解碼和編碼也被統一應用在一個模型中,一起構建了具有多模態數據解碼能力的神經轉碼模型。

盡管研究者已經在神經編碼領域進行了持續深入的研究,但是關于如何對神經編碼模型的性能進行評價,研究界還沒有達成一個統一的評價標準?,F有的主要評價角度是從神經編碼模型預測出的神經響應與真實生理數據之間的相似度進行評價。具體來說,主要是使用相關系數進行評價。例如對雙光子鈣成像信號中真實與預測的亮度跡線進行相關系數計算[32],對脈沖信號中真實與預測的脈沖發放頻率之間進行相關系數計算[14,33]??紤]到人類對大腦信息處理機制還存在很多未知,同時大腦具有自我補全信息的能力,保留最完整原始信息未必代表最好的神經編碼效果。本文針對上述問題,提出了使用神經解碼效果來對神經編碼模型進行評價。

本文的主要貢獻如下:

(1)提出了使用神經解碼來驗證脈沖編碼性能的視覺神經編解碼方法。并根據這一思想設計了視覺脈沖信號編碼驗證框架。在這個框架中,除了傳統神經編碼度量方法之外,通過“標準解碼度量模型”補充了對脈沖信號神經編碼結果的評價維度,豐富了脈沖信號神經編碼的評價維度,提升了脈沖信號編碼響應的生理可信度。(2)在蠑螈視網膜神經節細胞動態視覺刺激脈沖信號數據集上對提出的框架進行驗證實驗。本文從神經元維度、視覺刺激維度、不同脈沖編碼方式全面地對神經編碼模型性能進行度量和分析。(3)本文發現了脈沖信號的頻率編碼和計數編碼方式在神經編碼結果上的差異。而這種差異由于過去評測手段的限制,在很多神經編解碼研究工作中沒有得到相應的重視。(4)不同脈沖信號神經編碼模型在傳統編碼度量方式和神經解碼度量方式下存在部分差異點,本文針對這些差異分析了其成因以及差異現象背后的生理意義。

2 本文使用的生理數據及預處理

視網膜是脊椎動物接受外界視覺信息的唯一來源。根據不同的形態和功能,視網膜中的神經元主要分為5種類型:將外界光信號轉換成生理電信號的光感受器,感知光線強弱的視桿細胞(rod cell),感知顏色的視錐細胞(cone cell),連接視錐細胞和視桿細胞的水平細胞(horizontal cell),將光感受器輸出的視覺信號傳遞給下游視網膜神經節細胞的雙極細胞(bipolar cell)。視覺信息由光感受器傳遞到雙極細胞,再經由雙極細胞傳遞到視網膜神經節細胞RGC。以上這兩個過程分別受到水平細胞和無長突細胞(amacrine cell)的調控。視網膜中的視覺信息最終匯合傳遞到RGC, RGC對視覺信息進行加工整合之后生成脈沖信號,繼續向視覺系統的下一處理階段-LGN傳遞。視覺信息在視網膜中的整個傳遞過程如圖1所示。蠑螈是目前計算神經學科研究視網膜機理的模式生物。本文中使用的生理信號數據為蠑螈視網膜神經節細胞脈沖信號數據,將其作為神經解碼驗證脈沖編碼性能方法的實驗數據集。下面對本文使用的蠑螈視網膜RGC脈沖信號的實驗數據收集流程作簡要介紹。研究人員首先將離體視網膜放置在檢測容器中,然后使用多微電極陣列對離體視網膜進行脈沖信號的記錄。在視網膜上方光感受器層安裝了一個顯示設備,包括視頻和圖像在內的視覺刺激通過這個設備呈現給視網膜。本文中使用的蠑螈生理數據集上施加的視覺刺激是總共為1800幀的動態視覺刺激,其中動態視覺刺激幀以30 Hz的頻率展示給蠑螈RGC。在給蠑螈視網膜展示視覺刺激的過程中,實驗人員一共記錄了90個RGC的脈沖響應。每個視覺刺激幀展示給RGC的時長是固定的,約為33ms。因此,根據展示的總幀數一共可以得到1800個脈沖發放的計數。

圖1 視網膜中視覺信息傳遞圖示

生理脈沖信號可以視為在時域上離散分布的事件信號(event)。本文將脈沖信號表示為一個長度為N,由M個向量組成的脈沖信號陣列。其中,M表示所有動態視覺刺激幀的數量,N是脈沖響應被記錄的RGC總數。在脈沖信號編碼實驗中,神經編碼模型的輸入為動態視覺刺激幀,輸出目標為所需要編碼的RGC脈沖信號響應。反之,在神經解碼實驗中,神經解碼模型的輸入為RGC脈沖信號響應,模型輸出目標為從神經元響應中恢復出激發此脈沖信號響應的視覺刺激。使用蠑螈RGC脈沖信號數據集分別進行神經編碼和神經解碼模型的訓練時,動態視覺刺激幀及每幀對應的脈沖響應均被按照9:1的比例分配。其中90%數據被用作訓練集,另外10%用作測試集。

如上所述,通過給蠑螈視網膜展示1 800個刺激幀,多電極采集設備共記錄得到1 800個脈沖發放的計數。在計算神經科學的研究中,通常有兩種脈沖信號處理方式。第1種,直接使用記錄得到的脈沖發放的數量n作為神經編碼的目標對象,簡稱脈沖計數。第2種,計算RGC的脈沖發放頻率,即n/Δt,使用脈沖發放率作為神經編碼的目標。在一些神經科學的研究工作中,這兩種脈沖編碼方式的使用沒有被特意強調區分。一些研究人員從單純的信息編碼角度出發,認為n和n/Δt所包含的信息是一致的。但是,考慮到 Δt一般為33ms,這會導致脈沖發放率n/Δt相對n來說數值上會變得特別大。同時,脈沖信號本身是稀疏的,從波形上來看,“脈沖發放率”波形的波動幅度要遠大于“脈沖計數”。當經過這兩種編碼方式得到的脈沖信息輸入到同種類型的神經編碼模型時,尤其是基于深度神經網絡的神經編碼模型,這兩種信息分布方式對編碼結果的影響已經不可忽略。

3 神經解碼模型驗證脈沖編碼性能

現有的神經編碼方法的評價方法,主要是基于真實生理脈沖信號和編碼脈沖信號之間的相關系數計算。本文提出使用標準解碼度量模型多角度評價不同脈沖信號神經編碼方法。根據這一思想,本文設計了包括傳統脈沖信號編碼度量方法和標準解碼度量模型的視覺脈沖信號編碼驗證框架。為了驗證這一框架的合理可行性,本文選取3個具有自然場景視覺刺激編碼能力的脈沖信號編碼模型,并在蠑螈RGC動態視覺刺激脈沖信號數據集上進行實驗。同時選取一個具有先進性能的自然場景視覺刺激解碼能力的神經解碼模型作為“標準解碼度量模型”。下面將對視覺脈沖信號編碼驗證整體框架以及用以對比的神經編碼模型、用于脈沖信號編碼度量的神經解碼模型進行詳細介紹。

3.1 視覺脈沖信號編碼驗證框架

本文提出的視覺脈沖信號編碼驗證框架如圖2所示。脈沖信號生理數據集中的視覺刺激輸入到脈沖信號神經編碼模型中。原始視覺刺激信息通過不同的神經編碼模型被編碼成不同的脈沖信號。此時,不同的脈沖編碼信號可以和真實生理脈沖信號按照傳統神經編碼度量方法進行度量。具體度量方法在傳統神經編碼度量方法章節進行介紹。這些編碼模型生成的脈沖信號序列接著被輸入到標準解碼度量模型中,進行神經解碼度量。標準解碼度量模型先使用脈沖信號生理數據集中的真實脈沖信號和視覺刺激進行了訓練,標準解碼度量模型從而具備通過脈沖信號進行視覺信息解碼的能力。不同的脈沖編碼信號輸入到標準解碼度量模型,通過解碼重構得到脈沖信號對應的視覺刺激。這些重構得到的視覺刺激又可以與原始視覺刺激進行相似度對比。本文將這種脈沖編碼信號重構出的視覺刺激與原始視覺刺激的相似度也作為對脈沖編碼模型的度量標準之一,同時結合傳統脈沖神經編碼度量方法,多角度對神經編碼模型的編碼能力進行評估。

圖2 視覺脈沖信號編碼驗證框架

3.2 神經編碼模型

早期的經典生物物理神經編碼模型只能用于簡單的白噪聲視覺刺激場景的脈沖編碼。這類神經編碼模型的性能無法達到可用的水平。因此本文嘗試使用最近在計算神經科學領域興起的基于深度神經網絡的神經編碼模型,在動態視覺刺激下采集的蠑螈RGC脈沖信號數據集上進行實驗。本文首先選擇文獻[32]的動態自然場景神經編碼模型。文獻[32]提出了多種基于卷積神經網絡的編碼模型。本文選擇其中基于卷積神經網絡神經編碼模型及其加入循環連接的變形網絡模型。為了方便表示,在下文中用CNN和CRNN表示。這兩種編碼模型的網絡結構展示在圖3中。CNN神經編碼模型主要包括兩層卷積層。其中,第1層卷積核大小為25×25,第2層卷積核大小為11×11。卷積層之后的全連接層負責將輸出轉換為需要編碼的神經元響應數量大小。而CRNN神經編碼模型則是在CNN神經編碼模型的基礎上加入了循環連接結構。在本文使用的這個神經編碼模型中為一個單元大小為32的長短程記憶模塊(Long Short-Tern Memory, LSTM)[34,35]。本文選擇的第3個神經編碼模型是Shah等人[36]提出的最新的神經編碼模型。該模型的主體架構也是基于卷積神經網絡,該模型與普通卷積神經網絡編碼模型的區別在于,它具有一種自適應性的批標準化層(adaptive batch normalization)[37]。這個神經編碼模型下文簡稱CNN-1。

圖3 參與脈沖編碼性能度量的神經編碼模型

3.3 標準解碼度量模型

本文選用最近提出的具有較高像素級解碼重構能力的模型作為度量編碼性能的解碼度量模型[30]。本文將該模型直接遷移到RGC數據集上,使用真實RGC脈沖生理信號響應將解碼模型訓練到最優性能。并將最優性能的神經解碼模型作為標準解碼度量模型。整個標準解碼度量模型的結構如圖4所示,可以看成由兩個功能部分組成。輸入脈沖信號首先通過一個由全連接層構建的前饋網絡。這個前饋網絡的功能是將輸入脈沖信號轉換成目標解碼圖像像素大小的中間量。第2個部分主要由一個類似自動編碼機的結構執行動態視覺刺激的重構功能。

圖4 標準解碼度量模型結構

4 神經編碼度量方法

本文提出的視覺脈沖信號編碼驗證框架中包括了傳統神經編碼度量方法與從解碼角度對脈沖信號神經編碼進行度量的標準解碼度量模型。下面本文分別對傳統脈沖神經編碼度量方法和基于神經解碼的編碼度量方法進行介紹。

4.1 傳統神經編碼度量方法

在計算神經科學領域,對神經編碼模型的統一評價標準還沒有形成。目前,大部分神經編碼的研究工作都會采用相關系數(correlation coefficient)作為對神經編碼模型的評價標準。此類方法通常是將編碼得到的神經元響應向量與真實神經元生理響應向量之間做一個相關系數計算。如果相關系數越大,則認為兩者相似性越高,則編碼效果越好。根據本文的具體實驗設置,本文定義了兩種神經編碼性能衡量指標,分別是cc_cell和cc_pop。cc_cell是單神經元在不同幀視覺刺激下編碼響應與真實響應之間的相關系數。cc_pop是單個視覺刺激幀在不同神經元上編碼響應與真實響應的相關系數。具體的計算公式可以寫成:

本文先定義真實神經元響應矩陣為Y,大小為m×n,m表示神經元數量,n表示視覺刺激圖像的數量。于是,編碼得到的神經元響應矩陣可以表示為,大小和Y相同。每一個神經元在所有視覺刺激上的真實響應和編碼響應分別表示為yi和,也就是按神經元數量(按行)分的每一行向量。每一幀視覺刺激在所有神經元上的真實響應和編碼響應分別表示為yj和,也就是按視覺刺激(按列)分的每一列向量。表示在y,y?兩個向量上求皮爾遜相關系數(Pearson correlation coefficient)。在本文的脈沖信號神經編碼性能度量實驗中,采用不同編碼方式,也就是脈沖頻率編碼和脈沖計數編碼的情況下,y的數值含義有所區別。在脈沖計數編碼情況下,y的數值為脈沖發放數量的統計值n。在脈沖頻率編碼情況下,y的數值為n/Δt。

4.2 基于神經解碼的度量方法

本文提出使用“標準解碼度量模型”對來自不同脈沖神經編碼模型的編碼結果進行驗證。從神經解碼角度,對脈沖響應編碼結果的度量具體為比較使用編碼響應解碼重構出的視覺刺激與原始視覺刺激之間的相似性。為了全面地對圖像相似性進行評價,本文使用了6個全參考的圖像質量評價指標作為經過不同神經編碼模型處理后的脈沖信號的評價標準。這些評價指標關注圖像的不同特性來進行重構圖像的質量評價。下面對這6種指標作簡要介紹。

(1)均方誤差(Mean Square Error, MSE)。MSE表示預期值和原始值之間的平方誤差。

(2)峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。峰值信噪比可以定義為

MAXI是原始視覺刺激圖像上的像素最大數值,即255。PSNR數值越大,圖像質量越好。PSNR的取值范圍沒有限制。

(3)結構相似度評價指標(Structural Similarity Index Metric, SSIM)[38]。結構相似度評價指標的設計基于人類視覺系統可以高效地從視覺刺激中提取視覺刺激圖像中的結構特征這個假設。SSIM的取值范圍是[0,1]。SSIM的取值越大,表示重構圖像與原始圖像相似度越高。

(4)最顯著失真度(Most Apparent Distortion,MAD)[39]。MAD主要考慮了兩個評價策略。在高質量圖像中基于檢測(detection-based)感知圖像變化和在低質量圖像中基于外觀(appearance-based)感知圖像變化。M A D 的取值是一個非負值,MAD越大,圖像質量越差。

(5)圖像特征相似度評價指標(Feature Similarity Index, FSIM)[40]。FSIM也是由人類視覺系統啟發而來。Morrone等人[41]提出圖像相位一致性的概念。圖像相位一致性和圖像梯度(image Gradient Magnitude, GM)是FSIM評價指標中兩種主要評價維度。FSIM與SSIM的取值范圍一樣。

(6)梯度相似度評價指標(Gradient Similarity Measure, GSM)[42]。GSM的取值范圍是[0,1],值越大則重構出來的圖像質量越高。GSM綜合考慮了圖像在亮度、對比度和結構上的變化進行評分。

5 實驗結果

本文首先使用蠑螈RGC脈沖信號數據訓練3種神經編碼模型CNN, CRNN, CNN-1以及標準解碼度量模型。然后將測試數據中的動態視覺刺激輸入到3種神經編碼模型中得到編碼響應。接著使用得到的3種模型的編碼響應和測試數據中的神經元真實脈沖信號,通過標準解碼度量模型獲得神經解碼結果。整個過程中對于每個編碼模型,本文使用了脈沖計數編碼和脈沖頻率編碼兩種編碼方法分別進行了編碼實驗。并且對兩種編碼方式的編碼結果進行了比較。本文首先從傳統編碼性能度量角度對兩種脈沖編碼方式進行比較和分析,再從標準解碼度量模型的重構結果再次進行對比分析。并且通過比較不同角度下編碼模型性能差異,對出現差異的原因進行分析。

5.1 傳統編碼性能度量結果

對于脈沖頻率編碼和脈沖計數編碼這兩種編碼方式,在單神經元維度下的脈沖編碼情況展示在圖5中。其中橫坐標代表占視覺刺激數據集總數10%的測試視覺刺激幀數量??v坐標對于脈沖頻率編碼表示脈沖發放頻率,對于脈沖計數編碼則表示脈沖發放數量。圖6是單視覺刺激維度的3種神經編碼模型在兩種編碼方式下的脈沖編碼情況。

圖5 單神經元維度3種神經編碼模型不同編碼方式的脈沖編碼

圖6 單視覺刺激維度3種神經編碼模型不同編碼方式的脈沖編碼

從圖5和圖6可以看到,CRNN和CNN-1模型在脈沖頻率編碼和脈沖計數編碼情況下編碼擬合程度不錯。相對來說CNN模型在單神經元維度上的編碼表現可接受,但是在脈沖計數編碼方式下編碼響應與真實脈沖響應差別較大。整個編碼響應情況中,CRNN表現出具有成功編碼離群高響應值的能力。圖5與圖6都是從選擇的部分神經元/視覺刺激上的脈沖編碼對不同編碼模型的編碼情況進行觀察。圖7展示了通過傳統脈沖編碼度量方式-皮爾遜相關系數從全局觀察的不同神經編碼模型的脈沖編碼情況。整體來看,同一種神經編碼模型的整體編碼效果,在脈沖頻率編碼方式下要優于使用脈沖計數編碼的情況。從單個模型角度上看,CRNN是唯一在脈沖頻率編碼和脈沖計數編碼情況下編碼性能相差不大的編碼模型。除此以外,3種神經編碼模型在脈沖計數編碼方式下相差大,性能優劣較為明顯。相對來說,3種編碼模型在脈沖頻率編碼下的性能在相關系數這個度量方式下差距不明顯。在脈沖頻率編碼方式和計數編碼方式下性能最好的編碼模型不同。在圖7中還可以發現,從不同神經編碼模型cc_cell和cc_pop的編碼性能變化趨勢來看,同一種神經編碼方式的變化趨勢是一致的,且不同模型性能優劣排序也是一樣的。例如,在脈沖頻率編碼的情況下,單神經元維度與單視覺刺激維度下CRNN模型的相關系數指標最高。從皮爾遜相關系數這一評價指標觀察,單神經元維度和單視覺刺激維度對神經編碼模型的評價不會發生較大差異。

圖7 3種神經編碼模型的傳統編碼度量指標情況

5.2 標準解碼模型度量結果

本文通過標準解碼度量模型對神經編碼模型的編碼性能進行度量。

圖8展示了4種情況下兩種編碼方式進行脈沖神經編碼的指標情況。除了3種不同編碼模型的情況,還加入了真實神經元脈沖響應通過標準解碼度量模型的結果(Bio-rsp)。首先從圖8的脈沖計數編碼情況分析,Bio-rsp的解碼重構指標都要優于不同神經編碼模型的指標,這與“真實生理響應中包含最完整的視覺刺激信息”的預期相符。從脈沖頻率編碼方式角度觀察,各神經編碼模型的性能優劣情況與脈沖計數編碼情況下不同:同一種神經編碼模型在不同編碼方式下,不同解碼度量指標上的差距較大。相較而言,真實神經元脈沖響應在不同神經編碼方式下,其對應的解碼度量指標差距小。從這個角度看,不同神經編碼方式對神經編碼的性能評判影響較大。同時也發現,不同神經編碼模型對不同神經編碼方式的“偏好”不同。CRNN和CNN神經編碼模型在脈沖頻率編碼方式下神經編碼性能更好。而CNN-1模型在脈沖計數編碼情況下編碼性能更優。本文對兩種神經編碼方式在神經編碼性能度量上的差異作簡要分析:盡管從傳遞信息總量的角度上看,兩種編碼方式傳遞的信息是一致的。但是對于神經編碼模型來說,脈沖頻率編碼相較于脈沖計數編碼而言數值大了一個數量級。而不同神經編碼模型在處理這兩種序列時存在較大區別,因此造成了神經編碼模型性能在兩種神經編碼方式下的差異。

圖8 兩種編碼方式下不同模型及真實響應的神經解碼度量指標

6 結束語

本文提出了使用標準解碼度量模型進行脈沖神經編碼模型性能評價的視覺神經編解碼方法,并且構建了具有傳統編碼度量和神經解碼度量能力的視覺脈沖信號編碼驗證框架。此外本文使用蠑螈RGC生理脈沖信號數據集,對動態視覺刺激下3種脈沖神經編碼模型的編碼性能進行了驗證。本文從定量分析上揭示了兩種脈沖編碼方式在神經編碼性能上的差異。這些發現對于未來類腦視覺研究以及生物視覺編解碼工作提供了啟發。對開發類腦視覺編解碼驗證平臺、探索形成統一的神經編碼評價基準提供了研究基礎。

猜你喜歡
編碼方式解碼度量
《解碼萬噸站》
鮑文慧《度量空間之一》
模糊度量空間的強嵌入
解碼eUCP2.0
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
GCOA算法
可穿戴式多通道傳感系統功能需求分析及設計
混合編碼方式自適應差分進化算法優化設計寬帶天線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合