?

基于強化學習的大跨度橋梁風致振動主動控制研究

2023-12-29 00:53何佳琛
交通科技 2023年6期
關鍵詞:風致神經網絡橋梁

何佳琛

(中鐵第四勘察設計院集團有限公司 武漢 430063)

主動控制措施依靠外部能源供給,可有效抑制大跨度橋梁的風致振動。主動控制律是主動控制設施的設計核心,其在很大程度上決定了主動控制設施的性能及魯棒性。在結構振動控制領域中較常使用的主動控制律設計方法主要可分為傳統控制算法和智能控制算法[1]。傳統控制算法通過配置被控系統的極點或最小化既定的代價函數等方式來求解主動控制律。李珂等[2]利用線性二次最優控制算法為安裝在橋梁甲板上方的主動小翼設計了自動控制方案,用于提高大跨度橋梁的顫振臨界風速。文永奎[3]利用線性二次高斯控制算法為主動質量阻尼器系統(ATMD)設計了自動控制方案,成功抑制了斜拉橋施工階段的抖振響應。傳統最優控制算法雖有能力設計出名義上性能最優或者次優的控制系統,但在實施過程中需要測量結構的全狀態信息,大跨度橋梁結構復雜,狀態信息龐大,由傳感器中大量信息傳輸而引起的時滯問題將大大影響控制系統的控制效果。

以神經網絡和模糊理論為代表的智能控制算法在處理復雜性及不確定性方面有較高的能力。何敏等[4]提出了基于神經網絡的大跨橋梁結構電磁驅動AMD系統輸入電壓的在線實時控制方法,用于降低結構的地震響應。顏桂云等[5]通過觀測部分樓層加速度和控制力輸出,建立了模糊神經網絡控制器,大幅度降低了高層建筑的橫風向振動,解決了傳統控制中有限的傳感器數目對系統振動狀態估計的困難。以神經網絡結構辨識和響應預測為前提的控制方案有著反應迅速及強魯棒性等優點,但神經網絡在訓練過程中收斂較為困難,容易陷入局部最小值。模糊神經網絡算法解決了傳統模糊控制中專家知識難定義的問題,但卻需要大量的高質量樣本數據去訓練算法中預先定義的神經網絡,當樣本數據難以獲得時,其應用將受限制。

強化學習是人工智能的一個重要分支,其使用智能體與環境進行交互,并通過交互獲得的反饋數據來找尋指定目標下的最優策略。強化學習在湍流的主動控制中已有頗多的研究成果[6],但到目前為止,還沒有學者研究如何利用強化學習算法為風-橋系統設計主動控制律。本文主要探究基于強化學習的大跨度橋梁風致振動主動控制,以蘇通長江大橋為背景,構建大跨度橋梁風致振動主動控制與強化學習框架各組分之間的對應關系,利用強化學習算法為主動質量阻尼器(active mass damper,ATMD)設計控制律,擬探究其對抖振的控制效果,并與利用線性二次型調節器所設計出的主動控制律在抑振效果層面進行對比分析。以檢驗利用強化學習算法所設計的控制系統在面對隨機風環境及結構參數不確定時的魯棒性能。

1 強化學習與橋梁風致振動的對應關系

在一個完全能觀的環境中,強化學習任務通常假定滿足馬爾可夫決策過程(Markov decision process,MDP)。標準的馬爾可夫決策過程可用四元組進行表示,即MPD=[S,A,p(st+1|st,at),r(st,at,st+1)],S和A分別為狀態空間和動作空間;p(st+1|st,at)為在當前狀態st下執行動作at后,環境轉移到下一個狀態st+1的概率分布;r(st,at,st+1)為在狀態st下執行動作at后轉移到狀態st+1時所獲得的獎勵,其與環境特性相關并通常由專家指定。在強化學習任務中,智能體的目標是通過與環境進行交互,從而找尋到最大化期望累積獎勵Eπ[R(τ)]的策略a=π(s|θ)[7]。大跨度橋梁風致振動主動控制與強化學習框架各組分之間的對應關系見圖1。

圖1 強化學習與大跨度橋梁風致振動主動控制對應關系

智能體代表著主動控制系統,環境代表著風-橋系統,在強化學習中,智能體試圖找到最優策略π*(a|st)來最大化期望回報Eπ[R(τ)],在控制系統設計中,設計者期望找到最優控制律u=f(x)來最小化代價函數或性能指標J,因此,經過適當的改造如取相反數,代價函數可轉變為獎勵函數,此時最優控制律便等價于最優策略。此外,在控制系統設計中,控制系統通過用傳感器采集系統響應信息來判斷橋梁的動力行為,進而給出實時控制信號u。在強化學習中,智能體通過觀測環境的狀態s來了解環境內部的演變,進而做出下一步動作a。因此,環境的狀態s與系統響應信息是對應的,控制信號u與動作a是相對應的。

2 基于主動質量阻尼器的大跨橋梁抖振控制

蘇通長江公路大橋是主跨為1 088 m的雙塔雙索面斜拉橋,利用ANSYS建立其空間有限元模型,動力分析結果表明,其第一階橫彎、豎彎,以及扭轉模態對應的頻率分別為0.100 7,0.188 0,0.529 8 Hz。在風荷載作用下,安裝主動質量阻尼器的橋梁,其運動方程為

(1)

kei[qei(t)-qsi(t)]-uei(t)

(2)

將式(2)代入式(1),并化為簡潔形式。

(3)

式中:

假定在蘇通大橋主跨1/3截面處對稱布置2個100 t的ATMD,選擇橋梁的一階對稱豎彎頻率作為主控頻率,ATMD的頻率比和阻尼比分別設為0.99和0.061,作動器提供的最大控制力取為1 000 kN。根據上述理論,利用newmark-β法求解結構響應,在不施加控制力ue的情況下(此時ATMD退化為調諧質量阻尼器TMD),橋梁跨中的位移和加速度響應時程見圖2,位移峰值和均方根值(root mean square,RMS)分別為1.305和0.383 m,加速度峰值和均方根值分別為2.705和0.647 m/s2。

圖2 不施加控制力時橋梁跨中的位移和加速度響應時程

3 基于強化學習的ATMD主動控制律求解

3.1 算法配置與訓練過程

深度確定性策略梯度強化學習算法[8](deep deterministic policy gradient,DDPG)采用神經網絡建模策略函數a=π(s|θπ)和狀態-動作值函數Q(s,a|θQ),并引用深度Q網絡算法中的經驗回放機制和目標網絡機制進一步穩定學習過程,加快收斂。在學習過程中,智能體與環境進行交互并將交互得到的狀態-動作-下一狀態-回報值(st,at,rt,st+1)存入經驗回放池,隨機抽取P個經驗樣本,最小化根據最優貝爾曼方程計算出的損失函數L來更新狀態-動作值函數Q(s,a|θQ)。

Q(si,ai|θQ)}2

(4)

式中:Q*(·)為目標Q網絡;π*(·)為目標策略網絡;θQ*和θπ*為相應的模型參數。策略函數π(s|θπ)根據策略梯度θπJ進行更新。

(5)

基于DDPG算法的ATMD主動控制律求解步驟見表1。

表1 基于DDPG算法的ATMD主動控制律求解步驟

3.2 算法配置與訓練過程

選擇橋梁跨中節點的豎向加速度響應和豎向位移響應作為描述風-橋系統的狀態變量s,將作動器所提供的控制力ue選為動作a,將系統的獎勵函數ri設置為如式(6)形式。

(6)

式中:系數a和b分別為位移和加速度相應的懲罰項,即位移和加速度越大,智能體單步所獲得的獎勵將越小,為獲得較大的總期望回報,智能體必須找尋到盡可能降低位移和加速度的策略,這與減振的目標一致;正常數c可以看作是獎勵函數的偏置,其保證單步獎勵值處于一個合理的范圍,有助于防止梯度消失現象,加快網絡收斂,本文采用試錯法將系數a、b和c的值最終定為1,1和0.8。智能體由策略神經網絡和狀態-動作值神經網絡組成,兩者均采用如圖3所示的4層神經網絡,隱藏層內神經元個數均設為10個,W1~Wn為神經網絡的權重系數;b為神經網絡的偏置。策略神經網絡和狀態-動作值神經網絡的學習率分別設置為0.005和0.001,軟更新因子和折扣因子分別設置為0.01和0.99,網絡訓練時終止時間步取為600 s,經驗回放池大小設置為20 000,當回放池數據儲存量達到上限之后,先進入的數據將會被后進入的數據替代,即新的經驗知識會代替舊的經驗知識。采用python語言及開源機器學習框架Tensorflow可編制計算程序,訓練過程見圖4,共訓練了M=1 142個回合,獎勵值最終穩定在1 800附近。

3.3 評價指標與控制效果

定義ATMD控制效果評價指標如式(7)~(11)。

(7)

(8)

(9)

(10)

(11)

圖5 基于深度確定性策略梯度算法的大跨度橋梁抖振控制效果(跨中節點)

表2對基于DDPG算法和LQR算法的大跨度橋梁抖振控制效果進行了對比,結果顯示,利用強化學習算法為風-橋系統設計的主動控制系統可達到與LQR算法相當的減振效果,均接近30%。但是利用DDPG算法設計出的主動控制律在實施時僅需要測量橋梁跨中節點的位移響應和加速度響應,而不需要獲取結構的全狀態信息,可有效避免時滯效應,可實踐性強。

4 控制系統魯棒性檢驗

控制系統的魯棒性是指系統在不確定性的擾動下,具有保持其性能不變的能力。為探究利用強化學習所設計的ATMD的魯棒性,本文共設計了6個工況,工況1和工況2采用諧波合成法重新生成2條和訓練時不同的脈動風速樣本,檢驗在隨機風環境下ATMD的工作情況。工況3~6分別考慮橋梁總體剛度退化10%、退化15%、提高10%,以及提高15%時所設計的ATMD的性能。表3給出了不同工況下利用DDPG算法所設計的ATMD的減振效果。不同工況下利用DDPG算法設計的ATMD的減振率見圖7。

表3 不同工況下利用DDPG算法所設計的ATMD的減振效果

圖7 不同工況下利用DDPG算法設計的ATMD的減振率

結果表明,當系統產生外部擾動即紊流風環境發生改變時,利用強化學習設計的ATMD仍然具備優越的控制性能。而當橋梁結構本身的剛度矩陣發生改變時,ATMD的減振性能雖有所衰退,但仍然能有效地降低橋梁結構的風致振動。此外,就單個工況而言,在大多數情況下,均方值控制效果總是優于相應的峰值控制效果,這種現象可能與強化學習的理念有關。強化學習中智能體的目的是找尋到最優策略最大化總期望回報,而非最大化單步獎勵,因此,智能體在尋找最優策略的過程中,具有較為長遠的“眼光”,即為了在之后可以獲得較大的期望回報,并不會拒絕過程中出現的相對較小的單步獎勵。在控制器設計中,這種學習理念可能會導致控制器弱化對響應峰值的削減,而是從整體的角度,專注于降低響應的均方差值。

5 基于強化學習的非線性渦振主動控制

為進一步說明強化學習的通用性,探究其對非線性系統的控制能力,本小節以寬高比為4的矩形斷面為基礎,研究了強化學習對非線性渦激振動的控制效果。所采用的矩形斷面寬度和高度分別為300,75 mm;線質量為6.085 kg/m;豎向振動頻率為13.43 Hz;質量比和阻尼比為0.001 1和0.002 1;Scruton數和Strouhal數為6.0和0.136;氣動參數Y1、Y2、ε分別為6.27,-5.7,1 082.2??紤]在橋梁節段上施加1個理想的控制力u,則橋梁-理想控制器耦合系統可用以下方程(12)進行描述。

(12)

圖8 控制前、后無量綱化的量渦振響應時程

6 結論

1) 利用強化學習算法為風-橋系統設計的主動控制律可達到與LQR算法相當的減振效果。但利用DDPG算法所設計出的主動控制系統在實施時僅需要測量橋梁跨中節點的位移響應和加速度響應,而不需要獲取結構的全狀態信息,可有效避免時滯效應,可實踐性強。

2) 當系統產生外部擾動即紊流風環境發生改變時,利用強化學習設計的ATMD仍具備優越的控制性能。而當橋梁結構本身的剛度矩陣發生改變時,ATMD的減振性能雖有所衰退,但仍然能有效地降低橋梁結構的風致振動。

3) 強化學習是一個適用范圍廣泛的通用性框架,可用于線性或非線性系統。但由于在強化學習的理念中,智能體的目的是找尋到最優策略最大化總期望回報,而非最大化單步獎勵,因此利用強化學習所設計的主動控制系統,其均方值控制效果會優于相應的峰值控制效果。

猜你喜歡
風致神經網絡橋梁
斜拉橋風致振動控制及其未來發展趨勢
“竹徑通幽壺”的藝術美感與優雅風致
神經網絡抑制無線通信干擾探究
風致
手拉手 共搭愛的橋梁
句子也需要橋梁
高性能砼在橋梁中的應用
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合