Actor-Critic強化學習方法及其在開發基于計算機視覺的界面跟蹤中的應用

2021-03-17 02:54OguzhanDogruKirubakaranVelswamy黃彪

工程 2021年9期

Oguzhan Dogru , Kirubakaran Velswamy , 黃彪*

Department of Chemical and Materials Engineering, University of Alberta, Edmonton,AB T6G 1H9, Canada

1.引言

油砂礦石含有瀝青、水和礦物質。瀝青是一種高黏度的烴混合物，可以通過多種化學和物理過程進行提取。該產品在后處理裝置或煉油廠[1]中進行進一步處理，以獲得更有價值的副產品（如汽油、航空燃料）。油砂是從露天礦坑中開采出來的，再通過卡車被運送入破碎機[2]。此后，用熱水處理混合物，并通過水力將混合物輸送到萃取廠。曝氣和幾種化學品被引入這一過程以加強效果。在萃取廠中，混合物在初級分離容器（PSV）中沉淀。圖1總結了水基油砂分離過程。

在PSV 內部的分離過程中，會形成三層：泡沫層、中礦層和尾礦層（圖2）。在泡沫層和中礦層之間形成一個界面[以下稱為泡沫-中礦層界面（FMI）]。其水平參照PSV單元影響萃取的質量。

為了控制FMI水平，關鍵是需要有可靠的傳感器。傳統上，差壓（DP）單元、電容探頭或核子密度剖面儀被用于監測FMI。然而，這些檢測結果要么不準確，要么不可靠[3]。視鏡被用于人工監視界面是否存在任何過程異常。為了在閉環控制中使用這一觀察方法，參考文獻[3]建議將相機用作傳感器。該方案利用邊緣檢測模型和圖像粒子濾波來獲得FMI；然后使用該模型建立反饋控制。最近，參考文獻[4]結合邊緣檢測和動態幀差分來檢測界面。該方法直接使用邊緣檢測技術來檢測界面，并且使用了估計測量質量的幀比較機制；此外，該方法還可以檢測故障。參考文獻[5]使用混合高斯分布對泡沫、界面和中間體的外觀進行建模，并使用時空馬爾可夫隨機場來預測界面。盡管利用基于界面外觀或行為的模型解決了一些難題，但這些技術未能解決在環境條件不確定情況下的敏感性問題，如遮擋和過度/非高斯噪聲。

圖1.水基油砂分離過程的簡化圖解。PSV位于提取單元中。

圖2.PSV示意圖。在分離過程中，形成三層分層。相機用于監控中礦層和泡沫層之間的界面，以控制FMI處于最佳水平。

監督學習（SL）方法嘗試通過最小化代價（或損失）函數來構建從輸入（即圖像，x）到輸出（即標簽，y）數據的映射。通常，代價函數是凸函數，最優參數是通過對代價函數應用隨機梯度下降算法[6?7]來計算得到的。另外，無監督學習（UL）方法被用于查找未標記數據中的隱藏特征（即僅使用x）[8]。目標通常是壓縮數據或在數據中找到相似之處。盡管如此，即使輸入與輸出之間確實存在著因果關系，UL 技術并未考慮輸入對輸出的影響。在計算機視覺中，這些方法是使用卷積神經網絡（CNN）實現。CNN 是對輸入應用卷積運算的參數函數。它不僅可以對一個像素進行處理，還可以對它的相鄰像素進行處理來提取抽象特征，用于分類、回歸、降維等[9?12]。盡管CNN已經被使用了幾十年[13?16]，但直到最近它才在不同領域得到廣泛普及[17?20]，這是由于硬件技術[21]和數據可用性[22]的發展導致的。與計算機視覺的發展并行，循環神經網絡（RNN）被用于預測時間序列，其中網絡先前的輸出以遞歸矩陣乘法的形式反饋到自身[23]。然而，vanilla RNN[24]會受到梯度減小或爆炸的影響，因為它反復將先前的信息反饋給自身，導致隱藏層之間反向傳播數據的共享不均勻。因此，當數據序列任意長時，它往往會失敗。為了克服這個問題，研究人員已經提出了更復雜的網絡，如長短期記憶（LSTM）[25]和門控循環單元[26]。這些網絡促進了隱藏層之間的數據傳輸，從而提高了學習效率。最近，研究人員提出了卷積LSTM(Conv‐LSTM)[27]，它是LSTM的一種變體，可以通過用卷積運算替換矩陣乘法來提高LSTM 性能。與全連接LSTM 不同，ConvLSTM接收的是一個圖像而不是一維數據；它利用輸入數據中存在的空間連接提高估計的性能。具有多層的網絡被認為是深層結構[28]。為了進一步提高預測準確度，研究人員已經提出了各種深度架構[29?33]。然而，這些結構存在過度參數化的問題（即訓練數據點的數量少于參數的數量）。研究人員試圖從幾種正則化技術（如dropout、L2）[17]和遷移學習[也稱為微調（FT）]方法[34?35]中找到解決方法，以提高網絡的性能。然而，傳輸的信息（如網絡參數）對于目標域可能不具有普適性。這一問題非常關鍵，特別是當訓練數據不足，或它們的統計數據與目標域中的數據明顯不同時。此外，目前循環網絡的有效遷移學習問題仍然需要進一步研究。

強化學習（RL）[36]結合了SL和UL技術的優點，并將學習過程形式化為馬爾可夫決策過程（MDP）。受動物心理學[37]和最優控制[38?43]的啟發，該學習方案涉及智能體（即控制器）。與SL或UL方法不同，RL不依賴于離線或批處理數據集，而是通過與環境交互生成自己的數據。它通過考慮直接后果來評估其操作的影響，并通過推導來預測其價值。因此，它更適用于涉及復雜系統決策的真實或連續過程。然而，在基于采樣數據的方案中，訓練階段的數據分布可能會有顯著差異，這可能會導致估計的方差較高[36]。為了結合價值估計和策略梯度的優點，研究人員提出了actor-critic方法[44?46]。這種方法將智能體分為兩部分：actor 決定采取哪個動作，而critic 使用動作值[47]或狀態值[48]函數估計該動作的好壞。這些方法不依賴任何標簽或系統模型。因此，對狀態或動作空間的探索是影響智能體性能的重要因素。在系統辨識[49?51]中，這被稱為辨識問題。研究人員已開發出來多種方法來解決勘探問題[36,48,52?58]。作為機器學習[59?61]的一個子領域，RL被用于（但不限于）過程控制[2,42,61?68]、游戲行業[69?77]、機器人和自動駕駛汽車等領域[78?81]。

FMI跟蹤可以被表述為一個對象跟蹤問題，它可以分別使用無檢測或基于檢測的跟蹤方法通過一個或兩個步驟來解決。先前的工作[82?84]已將RL 用于對象檢測或定位，因此它可以與跟蹤算法相結合。在這種組合的情況下，跟蹤算法也需要可靠和快速的實時實現。一些對象跟蹤算法已被提出，包括使用RL[85?90]的多個對象跟蹤算法。研究人員所提出的方案將預訓練的對象檢測與基于RL 的跟蹤或監督跟蹤解決方案相結合。這些模擬是在理想條件下進行的[91?92]?；趯ο髾z測的方法的性能通常取決于檢測準確度。即使智能體根據明確定義的獎勵信號去學習跟蹤，研究人員也應確保感官信息（或感官信息的特征）準確?；谀Ｐ偷乃惴ㄍǔ＜僭O感興趣的對象具有剛性或非剛性形狀[4]，并且噪聲或運動方式具有特定模式[3]。當意外事件發生時，這些假設可能不成立。因此，無模型方法可能會提供更通用的解決方案。

由于CNN 可能會提取抽象特征，因此在訓練后對其進行分析很重要。常見的分析技術利用激活函數、內核、中間層、顯著性映射等信息[30,93?95]。在RL情境中，一種流行的方法是使用t-分布隨機鄰居嵌入（t-SNE）[96]來降低觀察到的特征的維度，以可視化處于不同狀態的智能體[72,97?98]。這有助于根據智能體遇到的不同情況，對行為進行聚類。另一種降維技術，即一致流形逼近與投影（UMAP）[99]，將高維輸入（在歐幾里德空間中可能沒有意義）投影到黎曼空間。這樣可以降低非線性特征的維度。

圖3展示了過程工業中的一般控制層次結構。在一個連續的過程中，層次結構中的每一層都以不同的采樣頻率相互交互。交互從設備層開始，這會對上層產生顯著影響。最近，參考文獻[2]提出了執行層面的解決方案。然而，解決其他層面的問題仍然具有挑戰性。

本文提出了一種基于RL的新型界面跟蹤方案，該方案針對無模型順序決策智能體進行了訓練。這項工作包括：

?詳細回顧了actor-critic算法；

?聚焦設備層，以提高層次結構的整體性能；

?將界面跟蹤表述為無模型的順序決策過程；

圖3.過程工業中的一般控制層次結構。RTO：實時優化；MPC：模型預測控制；PID：比例積分微分控制器。

?結合CNN和LSTM以提取時空特征，無需任何顯式模型或不切實際的假設；

?在獎勵函數中利用DP 單元測量值，無需任何標簽或人工干預；

?使用時間差學習訓練智能體，允許智能體在閉環控制設置中持續學習；

?在開環設置的不確定性中驗證魯棒性；

?在簡化的特征空間中分析智能體的可信度。

本文的結構如下：第2 節回顧了actor-critic 算法和基本信息；第3節闡述了界面檢測；第4節詳細介紹了訓練和測試結果；第5 和第6 節分別給出了結論及未來研究展望。

2.Actor-critic強化學習研究綜述

RL是一個嚴格的數學概念[36,39,42]，其中的智能體學習是一種在動態環境中使整體回報最大化的行為。與人類類似，智能體學習通過考慮未來的獎勵學習如何做出明智的決策。這與簡單分類或回歸等方法不同，它意味著觀察的時間維度將被納入考量。此外，這種能力允許強化學習在具有不規則采樣率的條件[40]下得到應用。其通用性使得強化學習能夠適應不同的環境條件，并能從模擬環境轉移到實際的應用過程中[80]。

2.1.馬爾可夫決策過程（MDP）

MDP 通過元組M形式化離散的順序決策過程，M由〈X,U,R,P,γ〉組成，其中x?X,u?U,r?R?R，分別表示狀態、動作以及獎勵。P(x′,r|x,u)表示確定或隨機的系統動力學或狀態轉移概率。MDP 滿足馬爾可夫性質[100]，即未來狀態僅依賴于當前而非之前的狀態。在該過程中，系統動力學對于智能體而言是未知的，這使得該方法更為通用。折扣因子γ?[0,1)是未來獎勵的權重，以使其總和有界。隨機策略π(u|x)是從觀察到的系統狀態到動作的映射。

在MDP 中，智能體觀察狀態x0～σ0，其中σ0表示初始狀態的分布。隨后，它選擇一個動作u～π(u|x)，智能體被帶入下一個狀態x'～P(x',r|x,u)，并獲得獎勵r～P(x',r|x,u)。通過利用序列（即x,u,r,x?），智能體學習了策略π，它將會產生最大折現收益G，如式（1）中所定義[36]：

式中，t和k表示離散時間步長。狀態值vπ(x)和動作值qπ(x,u)使用貝爾曼（Bellman）方程[式（2）和式（3）]計算：

式中，E是隨機變量的期望。在為每個狀態估計值函數之后，可以使用式（4）和式（5）求解最優值（和）函數：

隨后，最優策略π*可由下式求得：

對于大規模問題，可以使用線性或非線性函數逼近法來分別或同時找到逼近值函數Q(x,u|ω),V(x|ω)，其中，ω表示逼近函數的參數。該結構也被稱為critics。此項工作側重于狀態值估計并將其符號簡化為V(?)。

2.2.Actor-critic算法綜述

早期的方法使用基于值（僅critic）的RL[71,101]來解決控制問題。在這些方法中，動作直接來自值函數，據研究報道，該值函數對于大規模問題是發散的[45,102]?；诓呗裕▋Hactor）的方法[103?105]解決了這個問題，它可以通過直接從參數化函數生成策略學習隨機行為，然后使用性能指標直接優化此函數。然而，估計的方差和延長的學習時間使得策略梯度無法實現。類似于利用生成網絡與判別網絡的生成式對抗網絡（GAN）[106]，actor-critic算法無需任何標簽即可進行自我監督[44?45,107?108]。這些技術分別通過actor和critic將策略與基于值的方法結合起來。這有助于大幅降低估計的方差和學習最優策略[36,55]。Actor 和critic 可以分別表示為兩個神經網絡；π(u|x,θ)（其中，θ表示actor 網絡的參數）和V(x|ω)[或Q(x,u|ω)]。

雖然已有研究提出了一些基于模型的actor-critic方案[109?110]，但本文將重點介紹最常用的無模型算法，如表1所示。其中一些方法使用熵正則化，而另一些則利用啟發式算法。上述方法中，一個常見的示例為ε-貪婪策略，其中智能體以概率ε?[0,1)進行隨機動作。其他研究技術包括但不限于向動作空間引入加性噪聲、向參數空間引入噪聲，以及利用置信上限等。感興趣的讀者可以參閱參考文獻[67]了解更多細節。

表1 基于動作空間類型和探索方法的actor-critic算法的比較。對于所有算法而言，狀態空間可離散或連續

將Actor-critic算法總結如下。

2.2.1.深度確定性策略梯度

已有研究提出，該算法可用于將離散的、基于低維值的方法[71]推廣至連續動作空間。深度確定性策略梯度（DDPG）[47]采用actor和critic（Q）以及目標critic（Q′）網絡，后者是critic 網絡的副本。在觀察到一個狀態后，該方法將從actor 網絡中采樣實值動作，并與隨機過程（如Ornstein-Uhlenbeck過程）[111]混合，以鼓勵探索。智能體將狀態、動作與獎勵的樣本存儲在經驗回放池中，以打破連續樣本之間的相關性，從而優化學習。它使損失函數L的均方誤差最小化，以優化critic，如式（7）所示。

該方案利用策略梯度來改進actor 網絡。由于值函數是經基于不同行為策略的目標策略所學習得到的，因此DDPG是一種新策略（off-policy）方法。

2.2.2.異步優勢動作評價算法

異步優勢動作評價算法（A2C/A3C）[48]沒有將經驗存儲在需要內存的回放池中，而是讓本地線程與環境交互并異步更新至公共網絡，這從本質上增加了探索過程。

與最小化基于Q函數的誤差不同，該方法會最小化critic 更新的優勢函數（A或δ）的均方誤差，如等式（8）所示。

在該方案中，公共網絡通過式（9）更新，此外，策略的熵則被用于actor 損失函數中的正則化以增加探索，如式（10）所示：

式中，初始dθG=dωG=0。左箭頭(←)表示更新操作；αc和αa分別是critic 與actor 的學習率；?是關于其下標的導數；β是一個固定的熵項，用于激勵探索。下標L和G分別表示本地與公共網絡。多線程網絡（A3C）可以離線運算，且該方案可被簡化為單線程（A2C）在線運行。盡管線程間相互獨立，但他們會根據公共網絡的行為策略來預測值函數，這使得A3C成為一種既定策略（on-policy）的方法。該項目使用A3C算法來跟蹤界面。

2.2.3.有經驗回放的actor-critic方法

具有經驗回放的actor-critic（ACER）方法[112]利用Retrace 算法[113]解決了A3C 采樣低效問題，該算法可估得式（11）：

式中，截斷的重要性權重ηˉt=min{c,ηt},ηt=[μ1(Ut|Xt)]/[μ2(Ut|Xt)]，c是一個裁剪常數，μ1和μ2分別是目標和行為策略。此外，該方案利用隨機競爭網絡架構（stochastic dueling networks，以一致的方式估計V 和Q）和比先前方法更有效的信賴域策略優化（TRPO）方法[114]。由于其Retrace算法，ACER是一種新策略（offpolicy）方法。

2.2.4.近端策略優化

近端策略優化（PPO）方法[115]通過裁剪替代目標函數來改進TRPO[114]，如式（12）所示：

式中，θ表示策略參數（即θold表示舊的策略參數）；r(θ) =[πθ(u|x)]/[πθold(u|x)]和ε表示裁剪常數；A是表示智能體動作好處的優勢估計，如式（8）所示。

2.2.5.Kronecker因子化置信區間的actor-critic算法

與使用梯度下降算法[6]來優化不同，使用Kronecker因子化置信區間的actor-critic算法是通過利用二階優化來提供更多信息。它通過使用Kronecker 因子近似值來逼近費歇爾信息矩陣（FIM）的逆，以克服計算的復雜性，否則，該矩陣相對于近似的參數呈指數級縮放。此外，它還可以跟蹤費歇爾統計，從而得到更好的曲率估計。

2.2.6.柔性actor-critic算法

與使用策略熵損失正則化的方法不同[48,114?115,119]，SAC（soft actor-critic，柔性actor-critic）算法[55,120]使用熵項[如式（13）所示]增加獎勵函數以鼓勵探索。相關研究[120]報道可以將這種方法用于提高策略對模型錯誤的魯棒性。

式中，θ表示策略的參數；α代表用戶自定義的（固定或時變）權重，用于調整熵的貢獻；H=E[?lgπ(?)]。該方案同時依賴于Q和V函數來利用柔性策略迭代。與DDPG和ACER類似，SAC將狀態轉移存儲在回放池中以解決采樣效率的問題。除了增強探索外，熵最大化還可以補償由引入新策略方法而引起的穩定性損失。

2.2.7.雙延遲深度確定性策略梯度算法

雙延遲深度確定性策略梯度算法（TD3）[121]解決了由于函數逼近（approximation）和自展（bootstrapping）（即在更新過程中使用估計值，而不是精確值）而導致的錯誤傳播（propagation）（這在統計和控制中是一項非常重要的挑戰）[122]。為了實現這一目標，該算法會預測兩個獨立的動作值，并偏好悲觀值；因此，它避免了次優策略。TD3利用目標網絡，延遲策略函數的更新，并從回放池中采樣N個狀態轉移來使用平均目標值估計，以減少學習過程中的方差。該算法向采樣動作添加高斯噪聲，以此引入探索，并使用確定性策略梯度方法執行策略更新[104]。

盡管上述算法提供了控制問題的一般解決方案，但它們可能仍然不能勝任某些更復雜或特定的任務。目前，研究者提出了許多其他的算法來彌補這些缺憾。例如，參考文獻[123]通過哈密頓-雅可比-貝爾曼（HJB）方程[39,124]，將參考文獻[44]提出的離散的actor-critic 算法擴展到連續時間和空間問題中。隨后，該算法在一個約束動作的鐘擺問題和小車撐桿問題（cart-pole swing up）中得到了測試。參考文獻[125]在有約束的MDP 上采用了actorcritic算法，并進行了詳細的收斂性分析。參考文獻[46]展示了四種基于正則和自然梯度估計的增量actor-critic 算法。參考文獻[126]介紹了一種自然actor-critic算法（natu‐ral actor-critic,NAC），并展示了其在小車撐桿問題（cartpole）以及棒球揮桿任務中的表現。參考文獻[127]通過反向HJB方程提出了一個連續時間actor-critic算法，并在兩個非線性仿真環境中測試了其收斂性。參考文獻[128]提出了一種適用于無限范圍（infinite horizon）、連續時間問題和嚴格收斂性分析的在線actor-critic算法，并提供了線性與非線性模擬示例。參考文獻[129]提出了一種增量的在線新策略actor-critic 算法。該算法定性地分析了收斂性，并用實證結果予以支持。此外，該研究還將時間差分算法（TD）與梯度-TD方法進行了比較，梯度-TD方法可以最大限度地減小預測的貝爾曼誤差[36]。參考文獻[130]提出了一種actor-critic標識符，理論表明，它可以在系統動力學未知的情況下逼近HJB方程。學習完成后，該方案會表現出過程穩定性。然而，該方案需要輸入增益矩陣相關信息作為已知條件。參考文獻[131]使用名義控制器作為監督者來指導actor，并在模擬巡航控制系統中實現更安全的控制。參考文獻[132]提出了在保持穩定性的同時，在沒有持續激勵條件的情況下，學習部分未知輸入約束系統的HJB方程的解。參考文獻[133]考慮李雅普諾夫（Ly‐apunov）理論，設計了一種容錯的actor-critic 算法，并在范德波爾系統（Van der Pol system）中對其穩定性進行了測試。參考文獻[134]通過使用HJB 方程和二次成本函數來定義值函數，提出了一個輸入有約束非線性跟蹤問題。該方案可以通過actor-critic算法獲得近似值函數。參考文獻[135]結合分類和時間序列預測技術來解決最優控制問題，并在模擬連續釜式反應器（CSTR）和模擬非線性振蕩器中演示了該方法。參考文獻[136]提出了平均actorcritic(mean actor-critic)算法，該算法通過使用平滑Q函數來估計策略梯度，并用函數對動作求平均以減少方差；其結果在雅達利（Atari）游戲中得到了驗證。參考文獻[137]使用事件觸發的actor-critic方案來控制供暖、通風和空調（HVAC）系統。除此之外，正如參考文獻[2,62,67,138,145]中所述，研究者最近還對不同的actor-critic 算法及其應用進行了研究。

在強化學習（RL）中，已有研究提出了一些改進值估計的方法[146,148]，這些方法均可用于actor-critic 算法。此外，還有研究提出了不同的技術[112,149]，以提高采樣效率（即減少學習最優策略所需的數據量）。與利用經驗回放[70]或數據監督學習[150]的技術不同，并行學習（parallel learning）利用多個隨機的初始化的線程（本地網絡），這些線程獨立地與環境的不同實例交互，以減少學習期間策略的差異。這些本地網絡擁有與公共網絡相同的基礎設施，其所采集的k個樣本將被用于公共網絡的參數更新。由于各線程間的軌跡彼此獨立，這將減少內存的使用并提高探索能力。任務分配可以通過多臺機器[151]或一臺計算機的多個中央處理器（CPU）線程執行[48]。

最優策略和最優評論在每個過程中都不同，并且它們往往是先驗未知的。若使用蒙特卡羅類型的方法計算過程（或一個回合）結束時的經驗回報[見式（1）]，其結果往往會冗余且嘈雜。與心理學中的巴甫洛夫條件反射[152]類似，TD學習可以預測當前狀態的值。與蒙特卡羅方法不同的是，它只在小范圍下進行了低至一步的預測。這將無限范圍問題轉換為有限范圍預測問題。與計算預期回報[如式（2）]不同，我們可以使用TD 誤差δ的k步超前估計來更新critic 網絡，如式（14）所示。這被稱為策略評估。

式中，δ是離散采樣t瞬間狀態x的TD 誤差，給定本地網絡的critic 參數ωL，k表示范圍長度。如果k接近無窮大，求和項收斂于式（1）中給出的經驗回報。與策略梯度算法[36]相比，基線V(xt|ωL)用于減少方差。

在k個步驟結束時，可以使用式（9）和式（10）更新公共網絡的參數（即θG和ωG）。

3.將界面跟蹤制定為一個順序決策過程

3.1.界面跟蹤

模型是描述過程動力學的數學方法，這些過程動態可以發生在物理/化學/生物系統[153]或視頻[154]中。當出現意外事件（如遮擋）時，導出圖像的模型通常會出現不準確的情況。為了克服這個問題，通常將上次有效觀察的信息用于下一次觀察[4]，或重建圖像[154]。盡管這些解決方案可能會在短時間內替代實際測量，但長時間暴露會降低閉環穩定性。因此，如果FMI太低，泡沫層中的瀝青會流入尾礦。這會降低產品質量并產生環境足跡。相反，如果其水平更接近提取點，則被提取的泡沫中的固體顆粒會使下游操作復雜化[3]。由于FMI的偏差會影響下游過程，因此在最優點調節FMI非常重要。

RL 可以解決遮擋和過度噪聲期間的不準確性。這可以通過將DP單元測量或來自任何其他可靠設備的測量與智能體的當前FMI預測相結合來完成，以在訓練階段提供獎勵函數中所需的準確成本，而無需外部標簽，如邊界框。消除對此類標簽的依賴可以最大限度地減少人為誤差。為此，智能體可以在PSV 視鏡上方的垂直軸上移動裁剪框，并將其中心與DP單元測量值進行比較?；诖似?，智能體可以將框移動到最優位置，即框的中心與FMI的中心相匹配。這種偏差最小化反饋機制的靈感來自控制理論，它可以使用從實際過程中獲得的測量值來增強基于圖像的估計。

考慮從視頻流中采樣的灰度圖像I?RH×W，具有任意寬度W、高度H，它可以捕獲整個PSV?？紤]一個矩形裁剪框B?RN×M，具有任意寬度M、高度N，其中，{N:N=-1,>1 ?N}，是矩形的中心。示例圖像和裁剪框如圖4（a）所示。這個矩形在將I裁剪成尺寸為N×M。為了完整起見，H>N，W=M。此外，將在時間t從DP 單元獲得的界面測量值作為z。需要注意的是，DP單元僅用于RL 智能體的離線訓練，并可以替換為其他界面測量傳感器，這在離線實驗室環境中是準確的。

這一問題的MDP組件可以定義如下：

狀態：矩形內的像素，x?B?X?I。這些像素可以被看做N×M個獨立的傳感器。

操作：將裁剪框的中心向上或向下移動1個像素，或凍結；u?U={-1,0,1}。

獎勵：在每個時間步長t，DP單元測量值與框中心位置（參考PSV底部）之間的差異見式(15)。

ut和之間的關系見式（16）。

圖4.使用相機獲得的幀（I）。（a）圖像尺寸（H×W）和裁剪框（N×W）；（b）裁剪框的尺寸（N×M）和初始裁剪框位置；（c）一個比值為ρ的遮擋示例。

式中，是一個任意的初始點，求和項表示直到第t個時刻采取的動作（ui=+1表示向上，ui=?1表示向下）。

折扣因子：γ=0.99。

該智能體的目標是生成一系列操作，將裁剪框B覆蓋在PSV的垂直軸上，界面位于其中心。為了實現這一點，智能體需要執行長期規劃并保留其動作與從DP單元測量中獲得的信息之間的關聯。擬議方案的流程圖如圖5 所示。此外，圖6 和表2 詳細展示了網絡。關于ConvLSTM層的更多細節，請參見參考文獻[27]。

表2 全球網絡的結構（與工作器的結構相同）

與之前在狀態空間中進行預測的工作[4?5]不同，這種方法通過分別使用式（9）、式（10）和式（14）來優化值和策略空間。此外，CNN 和ConvLSTM 層通過使用式（17）進行更新。

式中，Ψ=[ψCNN,ψConvLSTM]表示CNN 和ConvLSTM 層的參數。該方案僅使用TD 誤差對整個網絡進行端到端的訓練。在不同點[圖4（b）]初始化的多個工作器[48]可用于改進探索，從而提高泛化能力。

在找到次優策略后，智能體保證在有限的時間步k內找到界面，這與初始點無關，如引理3.1所示。

圖5.本文提出的學習過程的流程圖。更新機制如式（9）和式（10）所示，其k步策略評估如式（14）所示。

圖6.CNN、ConvLSTM、actor和critic網絡的詳細結構。

引理3.1：在任何時刻t，對于一個常數zt，同時P=如k→N，對于(k≤N<|X|?∞)^(?z0,zt?Z≡|X|)。

證明.假設并且次優參數θ*和ω*是使用連續策略函數π(?|θ*)上的迭代隨機梯度下降獲得的。V(?|ω*)是Lipschitz 連續critic 網絡，由ω參數化，并估計給定狀態的策略π(?)的值。

這可以被擴展到變量zt?Z。

3.2.通過訓練對遮擋的魯棒性

CNN 通過考慮像素的連通性來解釋空間信息，這在一定程度上提高了魯棒性。但是，它并不能保證對遮擋的魯棒性，即使在正常條件下獲得了好的策略，智能體也可能會失敗。為了克服這個問題，可以在訓練階段使用合成遮擋的圖像來訓練智能體。另一種方法是使用遮擋圖像重新校準策略（使用無遮擋圖像進行訓練）。

具有任意像素強度κ?[0,255]的遮擋物體Ω可以定義為{Ω:Ω?RH×(N×ρ)}，其中E[Ω]=κ。ρ?[0,100%]表示遮擋的比率，如圖4（c）所示。如果ρ=1，則智能體僅觀察該視頻幀中的遮擋（即，如果ρ=100%，則xt=Ω）。通過定義其尺寸后，可以從任意概率分布（即連續或離散，如高斯、均勻、泊松）中采樣遮擋率。在訓練過程中，可以任意調整出現遮擋的實例的持續時間。這些可以是隨機或確定的。即，遮擋可以在隨機（或特定）時間出現，并持續一段隨機（或特定）時間。如果使用多個工作器（如第2.2節所述），則可能會在不同時間實例中為每個工作器引入不同的遮擋率。因為智能體不需要等待很長時間來觀察不同類型的遮擋，所以這提高了訓練數據的多樣性，并且使得處理時間更加高效。

4.結果和討論

4.1.實驗裝置

模擬工業PSV 的實驗室規模設置用于提出的方案。這種設置允許使用泵將界面移動到所需的水平，如圖7所示。兩個DP單元用于根據液體密度測量界面水平，如參考文獻[5]中所述。

圖7.實驗裝置。

使用D-Link DCS-8525LH相機以每秒15幀（FPS）的速度獲取圖像。從15FPS的鏡頭中，可以獲得每秒的代表性圖像。因此，通過必要的下采樣獲得了來自連續80 s的80 張圖像。這些圖像經過處理以展示PSV 部分，沒有不必要的背景。然后將它們轉換為灰度圖像。DP 單元相對于進水處的FMI高度測量值（與圖像相同的連續時間段）可以轉換為像素位置，如參考文獻[4]所示。執行每個動作后，視頻幀會發生變化。智能體采取的每一個動作都會產生一個標量獎勵[式（15）]，之后用于計算訓練智能體參數[式（9）和式（10）]時使用的TD誤差[式（14）]。

4.2.實施細節

4.2.1.軟件和網絡詳細信息

訓練和測試階段均使用Intel Core i7-7500U CPU，工作頻率為2.90 GHz（兩核四線程），8 GB 的RAM，工作頻率為2133 MHz，配有Tensorflow 1.15.0 的64 位Win‐dows系統。與更深層次的網絡（如參考文獻[32]中包含數千萬個參數的網絡）不同，該智能體包含的參數較少，如表2 所示。這可以防止過度參數化，并顯著減少計算時間，但其缺點是無法提取更高層次的特征[155]。

執行每個操作后，裁剪框的尺寸將調整為84像素×84像素。之后使用學習速率為0.0001的Adam優化器，以基于樣本的方式對智能體的參數進行優化（包括CNN、CONVLSM、actor和critic）。相關研究顯示這種基于動量的隨機優化方法計算效率很高[156]。

4.2.2.無遮擋訓練

實驗中使用了A3C 算法以減少訓練時間，提高探索度，并在學習過程中收斂到次優策略[48]。所有初始網絡參數都是從均值和單位方差為零的高斯分布中隨機抽樣獲得的。如圖8所示，通過手動排序80幅圖像創建界面級連續軌跡后，進行離線訓練。

圖8.訓練結束時的訓練結果（2650回合）和FT（3380回合）。BFT：微調前；AFT：微調后。

然后，在470 步，共2650 回合（episode，一回合包含470 步）中，向智能體重復顯示這一軌跡。無論何時，智能體都只觀察裁剪框內的像素。每個智能體的裁剪框在四個不同的位置初始化，如圖4（b）所示。智能體的目標是在最大速度為每步1像素的情況下，使裁剪框中心相對于DP單元測量值的偏差最小化。該智能體在訓練階段沒有被遮擋，能夠為4 個線程處理20 幀?s?1圖片（即計算執行時間）。

4.2.3.無遮擋微調

在沒有遮擋的情況下，利用訓練結束時獲得的參數初始化全局網絡參數。本地網絡最初與全球網絡共享相同的參數。所有訓練超參數（如學習率、界面軌跡）保持不變。前一個訓練階段使用的圖像被遮擋，其比率ρ從泊松分布中采樣獲得，如式（18）所示。分布情況Pois(x,λ)的計算如式（19）所示。

每回合開始時，式（18）限定ρ的范圍處于0~80%（ρmax）之間。形狀因子可任意定義為λ=1。在每一回合中，遮擋發生在第200步到接下來的200步之間，概率為1。微調（FT）的目的是確保智能體對遮擋具有魯棒性。該智能體與四個線程接受了730回合任意的訓練，直到情景累積獎勵得到改善。

4.2.4.界面跟蹤測試

對于一個1000 步的回合，使用一個不連續的軌跡測試該智能體，該軌跡包含以前未看到過的圖像，這些圖像通常沒有噪聲或充滿高斯噪聲，ν?RH×W～N(0,1)，如表3所示，測試以三種方式進行。這些圖像也使用合成遮擋，其恒定強度被任意選擇為圖像的平均值（即κ=128），而遮擋率ρ在20%~80%之間線性變化。4.2.5.特征分析

表3 基于圖像身份的噪聲圖像定義

為了說明該網絡的有效性，本實驗從PSV 的頂部到底部手動裁剪了以前未看到的PSV 圖像。這些手動裁剪的圖像在訓練前通過CNN逐一傳遞，CNN按照第4.2.2節所述的方式進行訓練，同時按照第4.2.3 節所討論的進行微調，以提取圖像特征。然后將這些空間特征?s收集到一個尺寸為9 × 9 × 32 × 440 的緩沖區中，并使用UMAP[99]從中獲得降維（2×440）特征。這些低維特征將在第4.6節中進行概述。

4.3.訓練

最佳策略是在訓練和FT 結束后獲得的，此時連續500 回合的累積獎勵沒有得到改善。圖8 顯示了使用這些策略留下的軌跡。裁剪框的位置被初始化，其中心位于PSV 最大高度的60%處。在該階段結束時，智能體跟蹤界面的偏移量可以忽略不計。圖9（a）中顯示了從第80步獲得的示例。綠色星形表示智能體認為界面在當前幀所處的位置。

圖9.（a）第80幀的訓練結果；（b）在第950步，80%遮擋和過度噪聲的情況下進行AFT后的測試結果。白色框表示智能體控制的裁剪框，星形代表裁剪框的中心，圓形表示精確的界面水平，五邊形是看似FMI的遮擋的底部。.

4.4.重新校準微調解決遮擋問題

如表4 所示，FT 將逐層的平均誤差（MAE）降低了0.51%，提高了智能體的整體性能，包括無遮擋圖像。這表明智能體不需要丟棄前置條件就能適應新的環境條件。這是因為從近優點出發，改進了智能體的估值能力和策略。需要注意的是，平均誤差的最小值受裁剪框初始位置的限制，如圖8所示。

表4 訓練和FT結束階段逐像素和逐層的平均誤差

圖10 以實線和點線分別表示了訓練過程中和微調后（AFT）的累積獎勵。

需要注意的是，FT期間的初始下降是由遮擋導致的，因為智能體在發生遮擋時無法跟蹤到界面層。這個新特征是通過400 回合內閉環獎勵機制學習得到。FT 結束時得到的最終累積獎勵與訓練結束時獲得的基本相同。這是因為累積獎勵僅表示訓練階段的跟蹤性能，它取決于裁剪框的初始位置，如圖8 所示。只有當框的中心和DP 單元測量在初始回合完全重疊，并且在此期間智能體無偏差地跟蹤界面時，該值為零。如第4.5節所述，當智能體暴露在不可見的環境條件中時，例如，過度噪聲和過度遮擋的情況，FT的必要性更為明顯。

圖10.累積獎勵。圖中顯示了智能體可以學習遮蓋理論并成功跟蹤界面。

4.5.檢測

4.5.1.微調前階段

在初始訓練結束階段（即第2650 個回合，如圖10 所示）進行初始前微調（BFT）測試。需要注意的是，測試階段（在線應用）沒用采用DP 單元信息，并且RL 智能體獨立運行。事實上，即使DP單元可以使用，它在現場應用環境下也無法準確運用。圖11 顯示，微調前，智能體對50%的遮擋和附加噪聲具有魯棒性。這極大改進了現有方案未能解決的遮擋問題。改進方案的原理是，卷積消除了干擾并提高了智能體的整體性能，神經網絡在空間域和時間域中提取了比邊緣和直方圖信息更多的抽象特征[157]。另外，任何增加遮擋率的操作行為都會導致跟蹤界面失敗。由于遮擋的強度較輕，策略會傾向于移向PSV的底部（此處存在大量較高強度的像素）以尋找界面。

圖11.展示了檢測結果，ρ 代表遮擋率（例如，ρ=0.8 表示圖像被遮蓋了80%）。

4.5.2.微調后階段

在AFT 階段中，重新校準作用于遮擋問題的智能體后，其性能得到顯著提高，如圖11 所示，智能體跟蹤界面的準確率有所提高。當連續幀之間的界面偏移量約為5%時，附加的噪聲會降低智能體的性能。然而，當界面偏移量減少到2.5%時，智能體可以成功運行，如圖11所示。這是因為過多的噪聲會嚴重破壞圖像，導致智能體無法定位界面。在第950 幀處獲得的示例幀如圖9（b）所示。需要注意的是，80%的遮擋率附帶著噪聲，這給跟蹤帶來了挑戰。智能體從圖像中提取的有用信息量顯著減少，此時圖像中只剩下20%的像素可用于定位界面。這種性能歸功于CNN 和ConvLSTM 的組合。如圖12 所示，從隨機網絡（實線）、訓練后（虛線）和AFT（點）獲得的參數顯示了智能體對從不可見畫面中獲得的狀態的值（critic 預測）。根據式（2），這個圖像定義了一個狀態的值，它假設策略會生成到達界面層的最佳軌跡。

圖12.值函數的測試結果與界面偏差的關系圖。

圖12 顯示，在訓練開始之前，任何狀態的預測值都是相似的。但是，在訓練階段，智能體不安于處于劣勢狀態中，并且DP單元讀數強調將裁剪框向界面移近（即垂直實線）得到的值比遠離界面得到的值更優。在FT 結束階段，隨著數據的增加，智能體進一步改進自身的參數和行為，移動裁剪框，因此提高了準確度。結果表明，智能體嘗試通過不斷變化的值來改進其行為。需要注意的是，在偏差值為200后，AFT階段的增加對應于圖9中的黃色五邊形。黃色五邊形的外形與界面相似，并增大了值函數，但是從這個部分獲取的值比界面的值低，這表明智能體靠近星星時比靠近五邊形時更可信。

4.6.理解網絡：特征分析

訓練和測試結果集中于智能體學習和控制能力的進步。單憑這些可能不足以解釋在以圖像形式觀察到的情況下，智能體的決定是否有意義。

圖13 顯示了二維圖的降維結果，顏色的漸變強度表示對應裁剪圖像（在第4.2.5 節中獲得）的值。曲線（從左到右）對應于PSV 箱側玻璃從上到下的裁剪圖像，如第4.2.5節所述。

圖13（a）~（c）中的有色五邊形對應圖13（d）中的三個點。結果表明，訓練前從網絡中得到的特征在沒有特殊安排的情況下是相似的。然而，隨著訓練的推進，具有相似值的特征越來越接近。結合圖12、圖13可以推斷，在RL 方法的幫助下，CNN 在未標記數據的無模型環境中，也能以有意義的方式提取特征，因為在采用CNNConvLSTM組合模型時，每個裁剪圖像的紋理和像素強度模式可以成功轉換為值和策略函數。此外，從DP單元獲得的獎勵信號（用作反饋機制）訓練了智能體的行為。

圖13.降維方法被應用于從不可見圖像中獲得的狀態特征中。這些特征的來源于隨機（a）、訓練（b）和微調（c）網絡獲得的參數。根據相應的值對數據點著色。（d）三個區域對應于箱體頂部和底部，并在不可見的圖像上突出標記FMI。智能體訓練過程中，從相似區域提取的特征在黎曼空間中聚集得更為緊密。

5.結論

本文全面回顧了actor-critic算法，并提出了一種新穎的RL方案。該方案把控制層次的設備層作為目標，提高了整個結構的性能。為此，本文把界面跟蹤制定為一個需要長期規劃的順序決策過程。智能體由CNN和ConvLSTM共同組合而成，不需要任何形狀或運動模型，因此對過程中的不確定性更具魯棒性。受控制理論中使用的反饋機制的啟發，智能體采用DP單元的讀數來改進其行為。該方法不再依賴于SL 方案所需的顯式標簽。在使用遮擋和噪聲下未經訓練的圖像進行驗證時，智能體的性能表明，它可以在低于80%的遮擋和過度噪聲的情況下實現對界面的跟蹤。本文通過對高維特征的分析，驗證了智能體對其觀測值的概括能力。

6.未來研究

本文成功采用一種最先進的RL技術演示了跟蹤液體界面的過程。本文利用由深度CNN 結構組成的智能體處理遮擋問題，并采用FT 策略提高了容限，這展示了該技術的自適應性。此外，本文認為能夠重建遮擋圖像的智能體可能是未來可行的替代方法。

Acknowledgements

The authors thank Dr.Fadi Ibrahim for his help in the laboratory to initiate this research and Dr.Artin Afacan for the lab-scale PSV setup.The authors also acknowledge the Natural Sciences Engineering Research Council of Canada(NSERC), and its Industrial Research Chair (IRC) Program for financial support.

Compliance with ethics guidelines

Oguzhan Dogru, Kirubakaran Velswamy, and Biao Huang declare that they have no conflict of interest or fi‐nancial conflicts to disclose.

Nomenclature

Abbreviations

A2C advantage actor-critic

A3C asynchronous advantage actor-critic

ACER actor-critic with experience replay

ACKTR actor-critic using Kronecker-factored trust re gion

AFT after fine-tuning

BFT before fine-tuning

CNN convolutional neural network

ConvLSTM convolutional long short-term memory

CSTR continuous stirred-tank reactor

DDPG deep deterministic policy gradient

DP differential pressure

FIM Fisher information matrix

FMI froth-middlings interface

FPS frames per second

FT fine-tuning

GAN generative adversarial network

HJB Hamiltonian-Jacobi-Bellman

HVAC heating,ventilation,air conditioning

LSTM long short-term memory

MAE mean average error

MDP Markov decision process

NAC natural actor-critic

PPO proximal policy optimization

PSV primary separation vessel

RL reinforcement learning

RNN recurrent neural network

SAC soft actor-critic

SL supervised learning

TD temporal difference

TD3 twindelayeddeepdeterministicpolicygradient

TRPO trust region policy optimization

t-SNEt-distributed stochastic neighbor embedding

UL unsupervised learning

UMAP uniformmanifoldapproximationandprojection

Symbols

E[ ? ]expectation

?s(?) spatial features

?t(?) temporal features

δtemporal difference error

σ0distribution of initial states

νgaussian noise with zero mean unit variance

(?)*optimum value for the variable,e.g.,q*

ln(?) natural logarithm

R,Gempirical reward,return

q,r,vexpected action-value,reward,state-value

x,x'∈XStates ∈State space

u∈UActions ∈Action space

π(?) policy of the agent,also known as the actor

δ(xt|ωL)temporal difference error

V(?) estimate of state-value,also known as the critic

Q(?) estimate of action-value,also known as the critic

Ω occlusion

Parameters

αa,αclearning rates for the actor and critic:0.0001

γdiscount factor:0.99

κintensity of occlusion:128/256

λshape parameter of a Poisson distribution:1

ρocclusion ratio:%

ζmagnitude of noise:0.2