?

深度神經網絡平均場理論綜述

2024-03-21 02:25顏夢玫楊冬平
計算機應用 2024年2期
關鍵詞:高斯梯度神經網絡

顏夢玫,楊冬平

(1.福州大學 先進制造學院,福建 泉州 362000;2.中國科學院海西研究院 泉州裝備制造研究中心,福建 泉州 362200;3.之江實驗室 混合增強智能研究中心,杭州 311101)

0 引言

深度神經網絡(Deep Neural Network,DNN)最初主要應用于參數初始化的預訓練過程[1],后來利用具有深度的卷積神經網絡(Convolutional Neural Network,CNN)識別圖像[2]。DNN 吸引了眾多研究者的關注,由此掀起了深度學習的熱潮。然而,盡管DNN 在應用領域取得了顯著的成功,但其背后的決策機理仍不夠明確。目前,深度學習方法仍然是一門高度實踐的藝術,充滿許多啟發式的技巧,并非一門精確的科學。這一缺陷對于金融、醫療、公共安全和國防等領域通常是致命的[3]。因此,需要構建一個成熟的DNN 理論指導深度學習中的廣泛工程應用,進而優化深度學習算法。盡管近年來在深度學習理論方面取得一些成效,但大部分工作專注研究單個隱藏層網絡,深度網絡的理論在很大程度上仍懸而未決。

DNN 與傳統的淺層網絡的本質區別在于網絡的深度,而DNN 成功的一個關鍵因素在于它的高表達性:一方面,它可以緊湊地以一種淺層網絡無法做到的方式表達輸入空間的高度復雜函數。此外,DNN 可以將輸入空間中的高度彎曲流形在隱含層空間中解耦為扁平流形,有利于簡單地線性讀出。這些DNN 的直覺理解完全可以通過現有的平均場理論(Mean Field Theory,MFT)來描述、分析和探討[4]。MFT 不僅可用于描述與分析特定DNN 的訓練過程[5],還可以探討DNN 的泛化性能及關鍵因素[6]。這些理論研究成果,讓人們看到MFT 在構建一個統一理解DNN 運行機制理論框架中是一個非常重要的基本理論方法。

近年來,美國斯坦福大學Ganguli 團隊[4]利用動力學平均場理論(Dynamic Mean Field Theory,DMFT)和黎曼幾何[7]研究了DNN 的高表達性:信息在DNN 中有效傳播機制和全局曲率隨深度指數增長?;贒MFT 的信息有效傳播機制最早起源于20 世紀80 年代Sompolinsky 等[8]開創性提出的隨機神經網絡模型,通過DMFT 分析發現系統隨參數變化可以從有序態相變到混沌態,以及發現混沌邊緣(Edge of Chaos,EoC)的相變點。Ganguli 團隊利用離散時間的隨機神經網絡模型[9],將該模型中的時間點替換成DNN 中網絡的層數號,發現網絡在EoC 的參數下呈現出更高的表達能力。

從MFT 的角度研究DNN 的初始化,發現了兩個影響網絡訓練的性質:前向信息傳播對于不同樣本的表達性(Expressivity)和反向梯度傳播的可訓練性(Trainability)。在隨機DNN 中,由表達性和可訓練性確定的超參數范圍已經得到了實驗驗證[10-15],當網絡初始化在EoC 附近時,其表達性和測試精度都會較高。此外,研究發現,誤差的有效反向傳播需要網絡參數滿足所謂的動力等距(Dynamical Isometry,DI)條件[16-18]。在這種條件下,研究人員成功訓練了在沒有批量歸一化和殘差網絡結構幫助下的單純一萬層的CNN[11]。

對于隨機初始化的DNN,通過MFT 更進一步地發現,在網絡無限寬的極限(網絡被過度參數化)下[19]:如果只訓練網絡的最后一層,可以用神經網絡高斯過程(Neural Network Gaussian Process,NNGP)核的核無嶺(Ridgeless)回歸描述網絡的訓練[20],DNN 與NNGP 的內在聯系使人們可以確切地用貝葉斯推斷回歸訓練DNN;如果訓練所有的層,可以用神經正切核(Neural Tangent Kernel,NTK)[5]描述,這種描述使人們可以直接研究DNN 中無窮維的函數空間和超級復雜的參數空間。

事實上,深度學習中的關鍵泛化現象也發生在核方法中:要理解深度學習中的泛化,必須先理解核方法中的泛化。哈佛大學Pehlevan 團隊[6]利用MFT 推導出了核回歸的平均泛化誤差的解析表達式,提出DNN 泛化的關鍵因素在于核與任務的本征譜匹配度。這個理論揭示了各種泛化現象,包括訓練過程中泛化誤差表現出的非單調行為。該理論進一步指出,核回歸的歸納偏置為學習曲線的非單調行為提供了機理上的理解,并為所謂的“雙重下降”現象[21]提供見解。

因此,MFT 為研究DNN 的運行機理提供了一個非常重要的基本理論手段。MFT 能從理論角度初步探索深度學習中的初始化、訓練過程和泛化機制,進而可以在工程上指導深度學習算法進行改進和優化[22]。然而,目前國內基于深度學習理論的相關科研人員缺少對DNN 在深度學習中取得顯著成功的內在機理的廣泛認識,特別是MFT 在理解DNN運行機制中發揮的基礎性作用。本文對DNN 現有MFT 的研究進行了整理和回顧,從網絡初始化、訓練過程和網絡泛化性能這三個方面的理論理解入手,并在各種人工神經網絡(Artificial Neural Network,ANN)中進行了相關對比分析,關于DNN 內在機理的理解與邏輯框架如圖1 所示。此外,本文還分析了該領域仍存在的難點并展望未來研究趨勢,為進一步深入研究深度學習理論提供參考。

圖1 MFT在理解DNN內在機理的研究框架Fig.1 Research framework of MFT in understanding intrinsic mechanisms of DNN

1 深度神經網絡初始化

DNN 初始化從以下兩個特性分析:前向信息傳播對于不同樣本的表達性和反向梯度傳播的可訓練性。這兩種特性分別對應DNN 中的EoC 和DI,如圖2 所示。

圖2 DNN前向信息傳播和反向梯度傳播的兩個特性Fig.2 Two characteristics of forward information propagation and backward gradient propagation in DNN

1.1 混沌邊緣

1.1.1 隨機網絡動力學

通過Sompolinsky 等[8]研究的隨機非對稱耦合相互作用的N個非線性神經元網絡的連續時間動態模型,當N→∞時,運用自洽MFT,可以發現在增益參數g>0 時的臨界值處發生有序態到混沌態的相變。EoC 相變點處的系統狀態具有無窮長時間關聯的性質,該網絡的動力學可由N個耦合的一階微分方程描述[8](符號定義見表1),即

表1 相關變量定義與對比Tab.1 Definition and comparison of relevant variables

該性質在具有離散時間動力學的系統中也成立。Molgedey 等[9]在此基礎上將動態模型的時間t離散化,研究在外部噪聲影響下的隨機非對稱全連接網絡的離散時間動力學,即

1.1.2 神經網絡動力學

用神經網絡層數l取代離散的時間變量t,用權重矩陣W代替突觸連接Jij,每層l有Nl個神經元,由輸入x0引發的前饋動力學(符號定義見表1)即為:

其中?為非線性激活函數。在每層寬度足夠大的極限下,即Nl?1,單輸入向量x0的長度q0在網絡傳播中會發生變化。對于大Nl,可以得到ql的高斯分布迭代式:

同樣,兩個輸入x0,1和x0,2的高斯積分形式可表示為:

其中:z1和z2為獨立的標準高斯變量為u1和u2相關高斯變量的協方差矩陣。

圖3 有序態-混沌態的相變圖Fig.3 Ordered state-chaotic state phase transition diagram

可以直觀地把χ(σw,σb)作為判斷臨界的序參量??刂朴行驊B-混沌態的參數對比見表2。

表2 控制相變的參數Tab.2 Parameters controlling phase transition

總的來說,這是EoC 性質在神經網絡中的重要理論分析,結合MFT 深入分析了信號在通過大型隨機前饋網絡的確定性性質,揭示了由權重和偏置的統計函數控制的有序態到混沌態相變的存在,并且發現在相變點上有限深度演化的暫態混沌是深度隨機網絡具有指數表達性的基礎。

1.1.3 混沌邊緣的具體應用

EoC在深度神經網絡參數初始化中起重要作用。Mishkin等[23]認為一個好的初始化條件很有必要:初始化參數設置得當,網絡可以訓練得很深,訓練精度在EoC 附近甚至可達到100%。表3 顯示了EoC 在不同網絡的作用,其中對比了有無EoC情況下達到目標準確率所需要的迭代次數。從表3中可以明顯看出,使用EoC初始化時,所需迭代次數更少;在沒有EoC下,無論目標準確率如何設置,所需迭代次數都比有EoC時多。雖然全卷積網絡(Fully Convolutional Network,FCN)、卷積神經網絡(Convolutional Neural Network,CNN)等網絡在EoC 附近初始化可以訓練得很深,但對于Dropout 網絡,它的最大網絡層數的設定是有上限的[10]。

表3 EoC在各種人工神經網絡中的作用Tab.3 Roles of EoC in various ANNs

給定損失函數為L 時,反向傳播方程可表示為:

由式(7)可知,χ(σw,σb)控制有序態-混沌態的相變,可由ξ?是否發散表示相變,ξ?與χ、g控制相變的詳細取值對比如表2 所示。

若梯度不獨立,邊界參數需修正[25]。由MFT 可知:

前面的ξ?通過計算得出(6ξ2),而在梯度不獨立的假設下,可通過計算整體的得到新的ξ?(12ξ1與12ξ2)。

1.2 混沌邊緣特性

1.2.1 表達性與復雜性

神經網絡的表達能力取決于它的網絡架構,更深的網絡可表達更復雜的功能。對于分段線性函數網絡,比如ReLU(Rectified Linear Unit)激活函數網絡,它的網絡表達能力可以用不同線性區域數度量,也可以通過將網絡調整為接近線性狀態使網絡具有高表達能力[26]。Serra 等[27]從理論和實驗的角度進行相關驗證。

1.2.2 信息傳播與反向傳播

通過MFT 研究隨機權重和偏差分布的未訓練的神經網絡動力學行為,可以定義一種可訓練的深度尺度,并且該深度尺度自然而然地限制了隨機網絡傳播信號的最大深度[10]。由此可見,神經網絡的隨機權重初始化在深度學習分析中起著重要作用。盡管這些網絡由隨機矩陣構建,可以用隨機矩陣理論(Random Matrix Theory,RMT)分析,但對于非線性網絡,現有的數學結果并不能直接利用。為此,Pennington 等[28]在逐點(Pointwise)非線性化神經網絡中利用自由概率論方法將RMT 應用于深度神經網絡。另外,Yang等[26]的理論表明,梯度信號隨深度呈指數增長,無法通過調整初始權重方差或調整非線性激活函數消除爆炸性梯度。他們認為批量歸一化本身就是梯度爆炸的原因,對于沒有跳躍連接(Skip connections)的普通批量歸一化無法在DNN 訓練。雖然無法完全消除梯度爆炸,但可以盡可能調整網絡為線性狀態以減少梯度爆炸的影響,提高沒有殘差連接的深度歸一化網絡的可訓練性。

1.2.3 網絡可訓練能力

經典的前饋神經網絡在前向輸入傳播和反向梯度傳播時,都隨深度表現出指數行為。其中前向動力學指數行為導致輸入空間幾何形狀快速崩潰,反向動力學指數行為導致梯度急劇消失或爆炸。在EoC 假設下,網絡在穩定態和混沌態之間的邊界徘徊,保持輸入空間的幾何形狀和梯度信息流,從而增強網絡的可訓練能力。Yang 等[29]將此理念用于殘差網絡,從理論和經驗上證明了Xavier 或He 等[30]的方案等常見初始化對于殘差網絡并非最優,因為決定最優初始化的方差取決于網絡深度,與EoC 相關。Hayou 等[31]從不同激活函數網絡的層面上,用MFT 分析了EoC 對可訓練神經網絡的隨機初始化的作用。

1.3 動力等距

1.3.1 Jacobian矩陣

DNN 能很好進行訓練的原因是:反向傳播過程中的梯度既沒消失也未發生爆炸,維持在一種穩定的狀態。因此,需逐步剖析梯度更新與傳播的內在機理,旨在改進與優化現有網絡算法。對于損失函數為L 的網絡,它的梯度鏈式更新可以表示為:

其中:xL表示最后一層的輸入,xl表示第l層的輸入。要想梯度更新能順利從最后一層傳到前面層,需要保證的值在1 附近,Saxe 等[17]將初步定義為一種端到端Jacobian 矩陣,即

該Jacobian 矩陣捕獲了輸入擾動經過網絡傳播對輸出的影響。

DI 概念首次被Saxe 等[17]提出,即滿足輸入-輸出Jacobian 矩陣的奇異值分布在1 附近:

其中:Dl是對角矩陣,它的矩陣元素滿足對于Jacobian 矩陣譜的理論計算,需要用到自由概率論中的S變換將Dl和Wl拆成單獨兩項計算,具體計算過程如圖4 所示,上部分框圖表示Wl的S 變換過程,下部分框圖表示最終Jacobian 矩陣JJT的S 逆變換過程。為簡便計算,考慮求解矩陣JJT的譜分布,其特征值開根號即為Jacobian 矩陣的特征值。其中:①表示Stieltjes transform;②得到矩生成函數MX;③為功能函數的逆變換過程;④為S 變換;⑤為S 變換過程的合并:

圖4 Jacobian矩陣譜計算流程Fig.4 Computing flow of Jacobian matrix spectrum

如果A和B為兩個相互獨立的隨機矩陣,它們隨機矩陣乘積的 S 變換就是它們 S 變換的乘積,即SAB(z)=SA(z)SB(z)。⑥為Dl的S變換的中間求解過程,與③和④相同。⑦得到JJT的逆矩生成函數。⑧因為JJT矩陣特別龐大且復雜,已經不能用式子表示,只能通過隱式求解來數值計算矩陣JJT的矩生成函數。⑨類似于過程②。通過⑩則可以求得最終矩陣JJT的譜密度表現形式。最后,根據不同激活函數?的設定,可以將Jacobian 矩陣譜的形態劃分為Bernoulli 類和Smooth 類[32]兩類。對于某些特殊的權重矩陣,可以利用隨機矩陣理論求解特征譜,比如隨機高斯非對稱實矩陣譜分布服從Girko 定律(整圓率)[33],對稱則服從半圓率[34];如果是稀疏矩陣或者是厄米與非厄米矩陣,可以采用空腔方法或復本方法求解。

1.3.2 動力等距的具體應用

由前文可知:DNN 的前向傳播體現了高表達性,可通過EoC 性質刻畫;而反向傳播則更注重網絡的可訓練性,梯度傳播的穩定性可用DI 刻畫,即梯度既不會消失也不會爆炸。這兩種結論已經在全連接網絡(Fully Connected Network,FCN)[10]、CNN[11]、循環神經網絡(Recurrent Neural Network,RNN)[12]和殘差神經網絡(ResNets)[13]等得到實驗驗證,當滿足DI 時,網絡的訓練速度會特別快[17],在沒有批量歸一化和殘差結構幫助下,還能成功訓練一萬層CNN[11]。表4 中列舉了使用DI 后與原網絡的測試精度對比,其中“—”表示沒有DI 條件時網絡不能訓練。

表4 DI對各種人工神經網絡測試精度的提升作用Tab.4 Role of DI in improvement of test accuracies for various ANNs

對于Jacobian 矩陣譜,不同網絡的不同Dl可用自由概率論求解,具體對比分析如表5 所示。其中滿足DI 正交化的方式大致可以分為三種:直接隨機權重矩陣正交化、設定權重矩陣S 變換后的特征值為0,以及Jacobian 矩陣譜的特征值為1 或-1。另外Yang 等還從數學層面對神經網絡中的平均場性質進行了進一步的理論分析,比如,EoC 處的殘差網絡[29]、批量歸一化中的平均場[26]和無限寬的超參數網絡[35]等。

滿足DI 的DNN 可通過以下兩個方面構建:

1)隨機正交化。對于深度線性網絡,可以通過正交權重初始化實現DI,這已被證明可以顯著提高學習速度,比沒有實現DI 的網絡學習速度快幾個量級[17]。在非線性情況下,通過自由概率論的強大工具分析計算深度網絡輸入輸出Jacobian 行列式的整個奇異值分布。在此基礎上,Xiao 等[11]提出了一種用于生成隨機初始正交卷積核算法,能訓練一萬層或更多層的Vanilla CNN。Rodríguez 等[36]在正則化基礎上,研究了一種局部強制特征正交性的新型正則化技術(OrthoReg),在特征去相關中施加局部約束消除負相關特征權重之間的干擾,使正則化器能達到更高的去相關邊界,更有效地減少過擬合。這種正則化技術可以直接運用于權重上并適用于全卷積神經網絡。此外,Xie 等[37]利用不同濾波器組之間的正交性的正則化器變體加強網絡的可訓練性,還結合了殘差結構在ImageNet 數據集實現了相關性能比較。對于較難訓練的RNN,Arjovsky 等[38]構建了一種歸一化權重矩陣新架構,使它的特征值的絕對值恰好為1 以優化網絡訓練過程。另一種更簡單的解決方案是使用單位(Identity)矩陣或其縮放(Scaled)版本初始化循環權重矩陣[39]。在DNN中,Li 等[40]介紹了一種正交DNN,建立了一個新的泛化誤差界。在CNN 中也有相關正交性的應用[41]。Guo 等[42]提出一種新的正交特征變換Ortho-GConv,用于增強圖神經網絡(Graph Neural Network,GNN)主干,以穩定模型訓練并提高模型的泛化性能。

2)等距懲罰項。雖然可以直接設置正交化條件以滿足DI 初始化,但在訓練過程中很難保證,需要對損失函數設置相關DI 的約束條件,使網絡在訓練過程中也一直保持DI 性質。初始化、歸一化和殘差連接被認為是訓練非常深的CNN并獲得最先進性能的三種不可或缺的技術,文獻[43]中通過在初始化和訓練期間強制卷積核接近等距,也可以訓練沒有歸一化或殘差連接的深度Vanilla CNN。

2 深度神經網絡訓練過程

用MFT 研究DNN 的過參數化網絡,可以將前向初始化近似為高斯過程,反向梯度訓練過程近似為NTK。

2.1 過參數化網絡

在神經網絡的經驗學習過程中,訓練誤差和泛化誤差不能同時兼顧,它們之間為此消彼長的關系。但是Belkin 等[21]發現當參數足夠多時,訓練誤差和泛化誤差之間可以保持一種平衡。因此,過參數化,即在極限條件下網絡寬度趨向無窮,從某種程度上具有一定優勢。Huang 等[44]從不同數據集的層面,對比分析了過參數化的優勢,發現參數越多的網絡具有更高的測試精度和更強的泛化能力。Arora 等[45]揭示了兩層網絡在過參數化情況下對任意數據進行泛化的原因。Du 等[46]認為兩層神經網絡成功的原因之一是隨機初始化的一階方法,如梯度下降,即使目標函數是非凸的和非光滑的,也可以在訓練過程中達到零損失的狀態[47]。雖然具有隨機初始化的基于梯度的算法可以收斂至過參數化的神經網絡訓練損失函數的全局最小值,但是保證全局收斂的神經網絡寬度條件非常嚴格。Zou 等[48]采用一種更溫和(Milder)的過參數化條件,對DNN 訓練過程中的隨機梯度下降(Stochastic Gradient Descent,SGD)的全局收斂性進行了改進分析。

2.2 高斯過程

過參數化的網絡易于平均場理論分析。因為在參數趨于無窮的極限條件下可以用現有的一些理論解釋,例如,熱力學極限定律、統計力學等。另外,參數多使得知道的先決條件也多,可以用貝葉斯推斷網絡的參數[19],即使計算量太大也可以用變分方法或者蒙特卡洛采樣大致估計。

在中心極限定理下,無限寬的隨機連接神經網絡等價于高斯過程,不管有多少網絡層數,不用進行任何訓練也可以對DNN 進行貝葉斯推斷。高斯過程對于分類函數的每一個類都可以提供具體的先驗分布,它聯系神經網絡和核方法,將表示網絡輸出與輸出之間關系的核矩陣叫作NNGP 核。對于式(4)所示網絡,若為單層神經網絡,則可以得到網絡輸出的分布為即高斯核的均值為μ1、方差為K1,每個變量之間都與i無關。此時其中C(x,x')的引入來源于Neal等[19],所以單層網絡的NNGP 核可以表示為:

對于深層網絡,它的NNGP 核表示為:

協方差矩陣可進一步簡寫為:

然而,不同的激活函數?會生成不同的NNGP 核,對于ReLU 非線性函數,它的F?為確定的arccosine 核;而對于Tanh,F?只能采用線性插值的方法數值求解。

給定數據集D={(x1,t1),(x2,t2),…,(xn,tn)},(x,t)為輸入-目標,用函數h(x)對測試點x*進行貝葉斯預測,并且網絡輸出值為h≡(h1,h2,…,hn),多元高斯先驗分布則可表示為h*,h|x*,x~N (0,K),其中協方差矩陣:

得到NNGP 核就可得到所有訓練數據之間的關系和先驗,采用貝葉斯推斷預測新的測試數據的網絡輸出,所以此時只需計算新產生的,不同神經網絡的NNGP 核公式對比如表6 所示。

表6 各種人工神經網絡的NNGP公式Tab.6 NNGP formulas for various ANNs

2.3 高斯過程等價網絡

通過研究具有多個隱藏層的隨機全連接寬前饋網絡與具有遞歸內核定義的高斯過程之間的關系,發現隨著網絡寬度增加,表示網絡的隨機分布函數逐步收斂到高斯過程[50]。除FCN 外,在無限多卷積濾波器限制下的CNN 也可以看作高斯過程[51],Novak 等[52]還對比了有無池化層的多層CNN 的類似等價性。對于貝葉斯神經網絡(Bayesian Neural Network,BNN),即便其中一些隱藏層(稱為“瓶頸”)保持在有限寬度,也可以收斂到高斯過程[53]。Pretorius 等[54]則研究了噪聲正則化(例如Dropout)對NNGP 的影響,并將它們的行為與噪聲正則化DNN 中的信號傳播理論聯系起來。上述相關網絡的高斯過程近似等價是在無限寬的條件下,Lee 等[55]對無限寬網絡和有限寬網絡的NNGP 對比研究,并通過對權重衰減進行逐層縮放(Layer-wise scaling),改進了有限寬網絡中的泛化能力。

盡管高斯過程理論具有吸引力,但它卻不能捕獲特征學習(Feature learning),而特征學習卻是理解可訓練網絡的關鍵要素。Naveh 等[56]考慮在大型訓練集上使用噪聲梯度下降訓練DNN,推導出自洽的高斯過程理論以解釋強大的有限DNN 和它的特征學習效果。另外,也有從熱力學理論的角度分析有限超參數化CNN 的特征學習,并也適用于有限寬DNN[57]。

2.4 神經正切核

對于DNN 動力學的研究還有另外一個分支:從NTK 角度觀察。NNGP 核是關于神經網絡輸出與輸出之間的協方差矩陣,而NTK 則是在此基礎上將神經網絡的訓練過程與核方法聯系起來研究梯度與梯度之間的關系。NTK 由Jacot等[5]首次提出,他們認為神經網絡在參數空間的梯度下降與在NTK 下函數空間的梯度下降等效,所以NTK 可以用于描述神經網絡中無限寬DNN 在梯度下降訓練過程中演化的核,而這個核在無限寬極限下會趨于一個確定的核,并且在梯度下降的過程中保持不變[58]。針對全批量梯度下降訓練的神經網絡[46],可以對輸出進行一階泰勒展開,用一個接近無限寬網絡的線性模型近似[59],因此該無限寬網絡的動力學行為可以用一個常微分方程(Ordinary Differential Equation,ODE)表述,這種無限寬極限的動力學就叫作NTK域(Regime)或惰性訓練域(Lazy training regime)。

另外,Arora 等[60]提出了一種高效算法計算卷積架構的NTK,即CNTK(Convolutional Neural Tangent Kernel),文獻[61]結合CNN 高斯過程內核的回歸對CNTK 算法進行了改進,提高了內核的性能;然而,上述文獻作者只研究了淺層網絡的無限寬極限(NTK 域)影響。Hayou 等[62]發現EoC 初始化對于NTK 也有一定的好處,并將NTK 與MFT 聯系起來,對DNN 中的SGD 訓練和NTK 訓練進行了對比。

2.4.1 核的定義

考慮FCN 的輸入為h0(x;θ)=x,每一層的輸出為為 經過激活函數后,網絡最后一層輸出為fθ(x)表示為:

其中FL:RP→F,代表將參數θ映射到F空間中的函數fθ,P表示網絡參數量。

對于任意L層的初始化網絡來說當N1,N2,…,NL-1→∞時,NTK 中的ΘL收斂于一個確定極限核,即

其中dNL代表維度為NL,與高斯核有關的遞歸關系如下:

2.4.2 線性網絡動力學

用ft(x) ≡表示神經網絡在t時刻的輸出,令ωt≡θt-θ0,將輸出網絡進行一階泰勒展開可得:

定義的損失函數為L,梯度流(Gradient flow)則可表示為=-η?θL,根據鏈式法則有:

因此,神經網絡的動力學可由一個ODE 描述,無限寬的網絡就是一個關于參數的線性模型,它可以證明在梯度下降過程中NTK 始終保持不變且具有穩定性,損失函數最終也會收斂為全局最小值,而且網絡非常寬時,權重在訓練過程中和初始權重相比變化也不大。針對不同的神經網絡并參考文獻[63-64]中的模型定義,NTK 的公式對比總結如表7所示。

表7 各種人工神經網絡的NTK公式Tab.7 NTK formulas for various ANNs

2.4.3 網絡的訓練過程特征

NTK 使用梯度流對DNN 訓練的這種動力學在無限寬的極限下稱作NTK 域或惰性訓練域。NTK 網絡參數的初始化為高斯初始化,而對于DI,它的網絡初始化可看作正交初始化。在淺層網絡中,無論是在DI 條件下,還是處于NTK 域中,正交初始化和高斯初始化的效果都一樣。但是當打破該NTK 領域時,即增大學習率或固定網絡寬度以增大網絡深度時,由于DI 對DNN 訓練的提升作用,此時網絡將不再處于NTK 域中[65]。

總的來說,NTK 在無限寬神經網絡下有兩個非常有用且重要的性質:一是在無限寬網絡中,若參數θ0在以某種分布進行初始化,那么在該初始值下的NTKΘ(θ0)是一個確定的函數,不管初始值為多少,最終總會收斂到一個確定的核函數,且與初始化無關;二是無限寬網絡中的Θ(θt)不會隨著網絡訓練而變化,即訓練中參數的改變并不會引起核函數的變化?;诖?,可以將無限寬網絡的訓練過程理解為簡單的關于核函數的梯度下降法,其中核函數固定,只取決于網絡結構和激活函數等。在Neal[19]的結論基礎上,可以將這個用梯度下降收斂的極值概率分布看作一個隨機過程??傊?,NTK針對梯度下降法提出,是關于梯度核的收斂,是訓練過程的一種表現形式;而高斯過程是初始化網絡收斂到高斯核,并未涉及訓練過程。

2.4.4 神經正切核的具體應用

將神經網絡的訓練過程與核回歸過程建立等價關系后,就可以解決無限寬神經網絡在實際中的表現問題,此時只需測試使用NTK 的核回歸預測器即可。Arora 等[60]在CIFAR-10 上對圖像分類數據集測試了NTK,因為對于圖像數據集需要使用CNN 才能獲得良好的性能,所以擴展NTK 構造適用于CNN 的CNTK,并測試了它們在CIFAR-10 上的性能。實驗發現CNTK 是非常強大的內核,而且全局平均池化可以顯著提高CNN 和CNTK 的分類準確性,據此認為許多改善神經網絡性能的技術在某種意義上通用。同樣,除了全局平均池化外,希望其他技巧也可以提高NTK 內核性能,比如批量歸一化或者殘差連接層,NTK 不僅應用在FNN、CNN 和RNN[66]上,也應用于GNN[63],這幾種網絡的NTK 性能對比如表8 所示。對于NTK 的Python 代碼運算,可以直接導入相關函數包[67]或者使用JAX[68],另外還可以通過Jacobian 構造和分解NTK 向量積等方法[69]加速有限寬網絡的NTK 計算。此外,Yang[70]從隨機神經網絡收斂到高斯過程,再到通過NTK預測梯度下降的訓練動態,在數學上重新推導了經典的隨機矩陣結果。人們還設計了Tensor programs 來單獨闡述任意RNN 架構網絡的高斯過程[71]、任意架構的NTK[64]、NTK 訓練動力學的泛化性能[72],以及無限寬網絡的特征學習[73]。對于DNN 中的可訓練性和泛化性,Xiao 等[74]從NTK 的角度制定了一系列架構的可訓練和泛化的必要條件。

表8 各種人工神經網絡的NTK性能Tab.8 Performance of NTK in various ANNs

3 深度神經網絡泛化性能

第2 章中介紹了過參數化網絡的優勢,可以在無限寬極限下,將網絡初始化后信息在網絡中的傳遞過程用NNGP 核表示,而網絡參數的訓練過程用NTK 表示,并在一定程度上能描述有限寬網絡。本章將著重介紹過參數化可以帶來好的泛化能力的原因、影響泛化性能的因素以及泛化性能的預測。

Arora 等[45]通過研究兩層網絡的過度參數化,利用依賴于數據復雜性的度量,改進了獨立于網絡規模的泛化界限。此外,根據Belkin 等[21]發現的過參數化后的訓練誤差-泛化誤差關系,SGD 方法可能隱含地限制了訓練網絡的復雜性(圖5)。一些實驗現象也表明,當SGD 的極小值處于很寬的能量景觀(Landscape)平面時網絡會有很強的泛化能力[75]。對于簡單兩層神經網絡,通過適當縮放利用分布動力學(Distributional Dynamics,DD)的特定非線性偏微方程(Partial Differential Equation,PDE)捕獲SGD 動力學,進而解釋SGD 收斂到具有近乎理想泛化誤差的網絡的原因[76]。另外,從統計物理中能量與熵的角度進行剖析[77],理論推導證實了實驗上的直觀現象,其中批量大?。˙atchsize)影響了SGD 的隨機性,隨機噪聲會自發地使SGD 走向寬的極小值。

圖5 訓練誤差與泛化誤差曲線示意圖Fig.5 Schematic diagram of training error and generalization error curves

3.1 泛化性能影響因素

人工神經網絡的泛化能力通常是指它識別未經訓練的樣本的能力。泛化問題主要可以分為兩大類:一是“弱泛化”,可理解為“魯棒性(Robustness)”,即訓練數據與測試數據來自同一分布;二是“強泛化”,可看作一種“理解(Understanding)”能力,即訓練數據與測試數據分布不同,需要使它在訓練集上學習的模型在測試集上也表現良好。影響網絡泛化性能的因素主要如下:

1)網絡結構。實現網絡復雜性與樣本復雜性之間的平衡,最主要的方法就是剪枝(Pruning),是決策樹學習算法中對付“過擬合”的主要手段,它的基本策略包括預剪枝(Prepruning)和后剪枝(Post-pruning)[78]。由于后剪枝決策樹通常比預剪枝決策樹保留了更多的分支,一般情況下它的泛化性能優于預剪枝。雖然剪枝網絡可以主動去掉一些分支降低過擬合風險,但是有些時候也會加劇過擬合。例如,當通過網絡修剪增加模型稀疏性時,測試性能因網絡過擬合變差,即使減輕過擬合可以提升測試性能,但最后也會因忘記有用信息而變得更差。He 等[79]把網絡剪枝有時加劇過擬合的現象稱為“稀疏雙重下降”。針對該現象,他們還通過彩票假設機制提出了一種新的學習距離解釋,即稀疏模型的學習距離曲線(從初始參數到最終參數)可能與稀疏雙重下降的曲線很好地相關。

2)訓練樣本。神經網絡作為一種非參數模型,所有信息都來源于訓練樣本集,訓練樣本集對泛化性能的影響有時超過網絡結構復雜性對泛化性能的影響[80-81]。在DNN 的訓練過程中使用模型參數的梯度信噪比(Gradient Signal-to-Noise Ratio,GSNR),即梯度的平方均值和方差與數據分布的比值,可以建立模型參數的GSNR 與泛化差距之間的定量關系:較大的GSNR 會導致更好的泛化性能[82]。另外,通過泛化鴻溝(Generalization gap)預測訓練數據和網絡參數的泛化差距,得到可以實現更好泛化的新的訓練損失函數[83]。對于使用反向傳播算法訓練的前饋分層神經網絡,通過在訓練樣本中引入加性噪聲也可以增強神經網絡泛化能力[84]。Vyas 等[85]從自然數據集出發,分析了NTK 泛化的局限性,研究認為真實網絡和NTK 之間的本質區別不僅是幾個百分點測試精度的差距。

3)學習機制。學習策略對網絡機制的泛化性能影響較為復雜,主要源于鞍點和局部極值問題。在相同學習誤差和網絡結構條件下,泛化誤差因到達不同的局部極值點而不同??梢酝ㄟ^約束網絡學習模型(約束條件與目標函數)、全局與局部最優算法選擇、訓練終止準則和初始權重與歸一化等改善前饋網絡泛化性能。對于隨機高斯的權重初始化,很少有工作考慮到特征各向異性的影響,大多數都是假設高斯權重為獨立同分布。而Pehlevan 等[86]則據此推導出具有多層高斯特征模型的學習曲線,并且表明第一層特征之間存在相關性可以幫助網絡泛化,而后幾層的結構通常有害,闡明了權重結構如何影響一類簡單的可解模型中的泛化。除此之外,在損失函數加入懲罰項是當前比較常用的正則化優化方式,相關正則化技術還有Dropout[87]、權值噪聲和激活噪聲等。

3.2 泛化性能理論

3.2.1 SGD的最優值收斂

定義損失函數

其中R(θ)為正則化函數,yi為網絡輸出,由SGD 引起的網絡參數更新可以表示為:

其中:ηt表示學習率,Bt表示隨機從訓練集中選取數據的批量大小。根據Langevin 方程以及梯度流的定義,可以將SGD寫成下述形式,即

此時,η(t)表示一種隨機噪聲,表示所有數據點同時輸入與批量輸入對網絡輸出產生影響的差異,如下所示:

過參數化網絡擁有好的泛化性,可能得益于SGD 的作用,Jastrz?bski 等[88]認為影響SGD 最小值有3 個因素,即學習率、批量尺寸和梯度協方差,并且認為學習率與批量大小的比值是影響SGD 動態和最終最小值寬度的關鍵決定因素,比率值越高,最小值范圍越寬,泛化效果越好。

SGD 的下降趨勢取決于噪聲的方向及大小。當網絡的訓練過程收斂到一定狀態時,可分兩種情況分析:一種是因為掉進了寬的局部最小值,可以通過額外添加噪聲[89]使梯度繼續下降,朝著更低極小值走去;另一種是處于鞍點,就需要新的算法逃離鞍點[90]。

3.2.2 內核與泛化誤差

給定P個觀察樣本輸入xμ服從分布p(x),假設樣本的標簽yμ帶有噪聲其中關于p(x)平方可積,εμ為添加的零均值噪聲,方差滿足關系對上述P個樣本的數據集,核回歸問題[6]可以描述為:

其中:λ為嶺(Ridge)參數,H 是由其再生核K(x,x')和輸入分布p(x)唯一確定的再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)[91],表示RKHS 內積,希爾伯特范數懲罰項控制f的復雜性[92]。

泛化誤差,即估計量f*與數據分布和數據集的平均真實目標值之間的均方誤差,可表示為:

Eg從平均上衡量所學習的函數與從同一分布采樣的未知(和已知)數據的目標一致程度。式(33)的分析可以使用無序系統統計物理學中的復本方法[93]。

利用Mercer 分解方法,將核K(x,x')分解成關于正交的特征函數項{?ρ}:

特征值{ηρ}和特征向量{?ρ}構成RKHS 的完整基。通過特征圖(Feature map),可將式(34)右邊項設置為正交基,用于計算任何核和數據分布的核回歸泛化誤差。另外,還可以用該泛化誤差公式很好地描述低至幾個樣本數據集的平均學習曲線,由于訓練集的隨機抽樣,學習曲線的走勢會隨著數據集樣本量的增加而衰減。對式(33)的解進行實驗分析,一個直接的觀察是它的譜偏差:若誤差沿特征函數的收斂越快,則在沒有噪聲限制下的特征值就越高[6]。

基于上述核回歸泛化理論,可以計算從淺層FCN 到深度CNN 等DNN 訓練中的泛化差距(Gap)。Misiakiewicz 等[94]用RKHS 的內核特征計算高維單層卷積核中的任何給定函數的漸進泛化誤差。

3.3 泛化性能內核預測

在無限寬網絡極限下,基于高斯過程和NTK 過程的內核演化可以預測網絡的泛化性能。Simon 等[91]推導出一種預測核回歸泛化的新理論,不僅可以準確預測測試均方誤差,還可以預測網絡學習函數的所有一階和二階統計量,并且可以準確預測有限寬網絡。針對不同架構的DNN,還可以利用重尾自正則化(Heavy-Tailed Self-Regularization,HTSR)[95],在不查看測試數據的情況下預測何種DNN 具有最佳測試準確性。Bordelon 等[96]通過自洽動力場理論分析了用梯度流訓練的無限寬度神經網絡的特征學習。此外,他們還分析了使用梯度下降和生物學相關機制(反饋對齊)訓練的無限寬深度網絡,并認為DMFT 能比較學習規則中的特征和預測動態,內核的演化也可以用DMFT 自洽地決定[97]。Cohen 等[98]則利用類物理學的方法,準確地預測了足夠深的DNN 在多項式回歸問題上的學習曲線。

Canatar 等[99]分析內核與網絡目標函數的對齊方式(Kernel alignment),用內核表示DNN 學習的有用數據,并在實驗上研究了訓練期間由層數演化的內核,當內核可由淺層到較深層進行表示時,網絡可更好地進行泛化。此外,Pehlevan 團隊[6]通過研究核回歸的泛化誤差描述了相關無限寬過參數化的神經網絡的泛化能力,并且使用統計力學相關技術推導出了適用于任何內核和數據分布的泛化誤差的解析表達式,結合真實和合成數據集以及多種內核,闡明了內核回歸的歸納偏置,并用簡單函數解釋數據表征了內核與學習任務的兼容性。

4 未來方向

深度神經網絡平均場理論被廣泛用于指導深度學習中的工程設計,但在DNN 中的初始化、訓練過程以及泛化預測這3 個階段上依然存在一定的挑戰:

1)初始化階段。盡管MFT 在DNN 的應用中取得了一定成效,還可以和統計力學相結合,從能量的角度出發理解DNN 的隨機初始化及表征能力[100],但在訓練過程中可能會破壞好的初始化,這時該如何拯救尚未可知。已有研究從正則化的角度讓網絡在訓練過程中盡量保持好的網絡狀態,如上述提到的加入等距懲罰項等方法,但還未達到完全可以保障的效果。要想真正地探究DNN 的初始化機制,EoC 和DI這樣的初始化理論可能還遠遠不夠,特別是在EoC 和DI 之外是否存在更好的算法可以彌補不理想的初始化狀態,這對發展更加可靠的DNN 具有重要的指導意義。因此,利用MFT 進一步深入研究DNN 初始化的作用機制是非常有意義的方向之一。

2)訓練階段。既然NTK 可以在理論上描述任意深度L的神經網絡,那為何實際實驗中進行的卻是淺層網絡?一個可能的原因是較大的網絡寬度意味著影響輸出的神經元很多,連接這些神經元的權重發生一點細微變化都可能導致網絡輸出變化很大;另一種可能的原因是對于初始化不滿足訓練條件的DNN,即不滿足EoC 和DI 條件,梯度不能從網絡的最后一層反向傳播至輸入層。另外,對于有限寬網絡,NTK也并不能完全適用[85],實際實驗中真實的網絡寬度也不可能接近無窮,NTK 理論終歸和實驗有偏差,還需改善現有理論,以更好地衡量有限寬或深度網絡的訓練能力。

3)泛化階段。雖然泛化理論在預測方面取得了一定的突破,但也有局限性:第一,該理論需要在完整數據集上進行核的特征分解,導致計算量龐大;第二,對于DNN 的內核描述受到限制,不能捕獲更多有用的深度學習現象;第三,該理論使用高斯近似假設,即使實驗驗證無誤,但放寬高斯近似假設后對于新的實驗見解仍未知。另外,Pehlevan 的泛化理論基于核回歸,而對于非核回歸等問題目前還沒有類似于核回歸泛化理論的理論。特別是當深度神經網絡在做特征學習時處于非NTK 區域,目前的泛化理論研究還處于初期階段,任重而道遠。

5 結語

本文從隨機網絡的動力學模型出發,回顧并綜述了DNN的初始化MFT 理論及其對DNN 學習性能的重要性,以及過參數化和無限寬極限下的各種MFT 理論,介紹了訓練過程中收斂性和泛化性的相關MFT 理論進展。目前對DNN 的工作原理的理解還很粗淺,要想解析DNN 的內部機理開發和改進工程算法,還需要更多的理論實驗探索,從更深層次的角度用MFT 理論理解DNN 的工作原理。

猜你喜歡
高斯梯度神經網絡
一個改進的WYL型三項共軛梯度法
一種自適應Dai-Liao共軛梯度法
神經網絡抑制無線通信干擾探究
數學王子高斯
天才數學家——高斯
一類扭積形式的梯度近Ricci孤立子
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
有限域上高斯正規基的一個注記
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合