?

基于深度強化學習的云制造產品配置

2023-12-22 00:45童曉薇劉艷斌
湖北理工學院學報 2023年6期
關鍵詞:深度優化目標

童曉薇,劉艷斌

(1.福建船政交通職業學院 機械與智能制造學院,福建 福州 350007;2.福州大學 福建省高校測試中心,福建 福州 350116)

云制造是一種基于云計算技術提供網絡化、低成本的大規模、個性化網絡協同制造的服務模式[1]。自2010年云制造技術提出以來[2],受益于云制造基礎設施逐步完善,大規模定制成為重要的生產模式[3-4]。在大規模定制環境下,隨著可配置產品單元增強,基于多目標優化的產品配置方法逐步被引入。袁際軍等[5]通過對多目標混合整數規劃模型求解,快速獲得了最優產品配置推薦方案。朱佳棟等[6]通過改進設計交互式遺傳算法,實現了多功能液壓千斤頂的配置設計優化。雷成名等[7]以產品配置成本、碳排放量和產品可靠度為優化目標,建立了多目標優化模型。

在云制造環境下,各類軟硬件故障、材料缺失、訂單調整、優先級變更、需求變化等動態因素更為突出,產品配置面臨更加復雜的環境[8-9]。因此,本文針對云制造環境的動態變化性,提出一種基于深度強化學習的產品優化配置方法,系統地分析產品配置建模及優化關鍵技術點,旨在為云制造環境下的大規模產品定制實施提供一種新思路。

1 云制造環境下產品配置建模

1.1 問題描述

基于云制造服務的產品配置,需要將產品定制需求層次化地分解為部件、零件、加工工序,形成一系列粒度適合、便于協同的制造任務,構成以有向圖、無環圖描述的制造任務流程。根據制造任務流程,對照云制造平臺的服務標準選擇對應的候選服務集合,從中優選制造服務實例,將產品制造需求配置為云制造服務實例集,完成云制造環境下的產品配置?;谠浦圃旆盏漠a品配置過程如圖1所示。

圖1 基于云制造服務的產品配置過程

云制造服務的生產價格、物流成本、交付時間、服務評價等與產品配置息息相關的指標經常發生變化,服務提供商的加入和退出、制造服務的注冊與注銷、制造服務承載力變動、制造成本變動等因素都加劇了的制造過程的不確定性。為實現動態復雜云制造環境下制造服務的優選及有效調度,引入產品配置全過程服務質量(Global Quality of Service,GQoS)指標,以GQoS的最大化為目標從云制造平臺匹配的候選服務集中篩選出最優的云制造服務實例,并對云制造產品配置活動進行合理的限定與假設。從需求提出到完成產品配置需要經歷任務求解、候選制造服務匹配、最優制造服務選擇3個階段。本文假定任務已經求解完畢并,容易獲得對應的候選服務,集中討論最優制造服務選擇問題。產品配置步驟通常包括串行、并行及其組合。為簡化問題,本文以串行步驟為典型過程進行建模與優化求解,但主要結論仍適用于組合流程。

1.2 模型建立

由于不同的配置步驟候選制造服務的加工時間、成本、質量屬性分值不同,因此需要先進行歸一化處理。根據產品配置目標“時間短”“成本低”“服務評價高”,歸一化處理時對加工時間、物流配送時間、加工成本、物流配送成本取負值。歸一化處理過程為:

(1)

(2)

(3)

(4)

(5)

式(1)~(5)中,j為配置步驟,j=1,2,…,n;tj和cj分別為配置步驟j所選擇的制造服務的加工時間和加工成本;rtj,j+1和rcj,j+1分別為步驟j到下一步驟j+1的物流配送時間和物流配送成本,實際中,步驟j到下一步驟j+1的物流不總是發生,如2個步驟采用同一供應商、在同一地理位置或者不存在資源依賴關系,則對應的rtj,j+1與rcj,j+1值為0;qj為服務質量評價;utj為歸一化加工時間;urtj,j+1為歸一化物流配送時間;ucj為歸一化加工成本;urcj,j+1為歸一化物流配送成本;uqj為歸一化服務質量評價。

構建云制造環境下產品配置模型的目標函數為maxGQoS,即最大化產品配置全過程服務質量。其中,GQoS由總配置步驟n的時間、成本、服務質量評價的加權和組成,表達式為:

(6)

式(6)中,Wt、Wc、Wq分別為時間屬性、成本屬性、服務質量評價屬性在產品配置優化目標中的權重,且滿足Wt+Wc+Wq=1。

約束條件為:

(7)

sj=rsj,?rsj∈CR

(8)

式(7)表示產品的制造時間(包括所有步驟的加工時間和物流時間)不能超過客戶對產品交付時間的最長期限DT;式(8)表示用戶可要求特定配置步驟sj采用指定云制造服務;CR為用戶指定選擇的云制造服務的集合。

2 基于深度強化學習的云制造產品配置

2.1 云制造產品配置的強化學習建模

云制造產品配置強化學習模型的整體框架如圖2所示。

圖2 云制造產品配置強化學習模型的整體框架

云制造產品配置問題主要涉及產品配置各步驟的服務選擇決策,每一個步驟需要形成確定的服務選擇策略,是典型的離散動作空間問題。本文采用基于價值方法的深度強化學習路線,使用主流的深度Q網絡算法作為產品配置多目標優化決策算法。在任意的一個時間步,智能體首先觀測到當前環境的狀態St,以及當前對應的獎勵值Rt?;谶@些狀態和獎勵信息,智能體決定如何行動,而后執行動作At,環境狀態轉移到St+1。

1)智能體:強化學習通過智能體與環境的不斷互動來迭代學習,不需要預先給出監督數據或對環境完全建模,智能體是云制造產品配置策略動作的執行程序。

4)獎勵:強化學習的目的就是教會智能體如何很好地與環境交互,從而在預先定義好的評價指標下獲得好的成績。為了讓智能體從環境中獲得反饋,需要在智能體執行動作后在每一個時間步上給予一個立即獎勵Rt。在一些情況下,深度強化學習的獎勵函數只取決于當前的狀態,即Rt=R(St)。云制造配置場景中,在判斷更關注成本還是時間、需要盡量選擇同一個服務提供商還是局部分散時,難以根據單個配置環節的環境狀態得到長期最優決策。因此,本文將獎勵設計為基于前序整體配置過程得到的累積獎勵,單個環節的獎勵采用1.2節所述公式(6)計算。

2.2 基于深度Q網絡的產品配置求解

結合云制造環境下產品配置建模,建立DQN網絡結構如圖3所示。

圖3 DQN網絡結構

深度Q網絡(Deep Q-network,DQN)結合了Q-Learning和深度學習解決近似學習狀態-動作值函數方法的收斂不穩定性問題,主要思想是用深度神經網絡實現對狀態-動作值函數的非線性擬合,即用Q值函數Q(S,Ai;θ)替代Q值表。DQN用一個經驗回放池D來解決連續樣本間的相關性問題,對智能體與環境交互取得的經驗數據進行離線更新。智能體采用ε-greedy策略進行動作選擇,產生經驗數據e=(St,At,Rt,St+1)存到D中,然后從D中隨機采集小批量樣本用于網絡訓練,即Q-Learning更新。相較于擬合Q值迭代,經驗回放機制可以使用新舊經驗來學習Q函數,提高數據的使用效率。如果沒有經驗回放機制,一個批次中的樣本將會連續采集,樣本之間高度相關,增加更新的方差,降低DQN的學習效率。

引入目標網絡的機制同樣很關鍵。DQN的神經網絡部分是由2個結構相同、參數不同的網絡組成,即主Q網絡與目標網絡。主Q網絡作為主網絡擁有最新參數,負責輸出當前的狀態-動作下Q的估計值Q(St,At)。目標網絡是獨立生成Q-Learning目標的網絡,不會即時更新參數,每C步將通過硬更新(直接復制)或軟更新(指數衰減平均)的方式與主Q網絡同步。由于通過使用舊參數生成Q-Learning目標,目標值的產生不受最新參數的影響,避免了過估計的問題,從而大大減少震蕩和發散的情況?;贒QN的云制造產品配置優化算法如下。

1:超參數:經驗回放池容量N,獎勵折扣因子γ,目標值網絡更新頻率C,ε-greedy中的。

2:輸入:空經驗回放池D,初始化狀態-動作值函數Q的參數θ。

4:for片段= 0,1,2,…,do。

5:初始化環境并獲取觀測數據O0。

6:初始化序列S0={O0}并對序列進行預處理φ0=φ(S0)。

7:fort=0,1,2,…,do。

8:通過概率選擇一個隨機動作At,否則選擇動作At=arg maxaQ(φ(St),a;θ)。

9:執行動作At并獲得觀測數據Ot+1和獎勵數據Rt。

10:如果本局結束,則設置Dt=1,否則Dt=0。

11:設置St+1={St,At,Ot+1}并進行預處理φt+1=φ(St+1)。

12:存儲狀態轉移數據(φt,At,Rt,Dt,φt+1)到D中。

13:從D中隨機采樣小批量狀態轉移數據(φt,At,Rt,Dt,φ't)。

15:在Yi-Q(φi,Ai,θ)上對θ執行梯度下降步驟。

17:如果片段結束,則跳出循環。

18:end for

19:end for

3 實驗結果與分析

3.1 實驗數據及仿真設置

采用文獻[10]和[11]構建的云制造平臺在工程機械行業試點運行期間的數據集進行模型訓練、驗證。數據集涉及某型號輪式裝載機的產品配置步驟及其對應的云制造服務,具體包括4家制造服務供應商、1 087個云制造服務,預定義了輪式裝載機鏟斗、駕駛室等18個產品配置流程環節。某型號輪式裝載機云制造服務部分數據樣例見表1,云制造物流服務部分數據樣例見表2。

表1 某型號輪式裝載機云制造服務部分數據樣例

表2 云制造物流服務部分數據樣例

強化學習算法通過不斷觀測環境并與之交互獲得知識。實驗構建了基于某輪式裝載機云制造數據的仿真模擬器,作為強化學習交互的環境,針對強化學習算法給出的產品配置動作(選擇特定的云制造服務),基于2.2節闡述的獎勵函數進行反饋,同時更新“配置步驟空間”與“制造服務空間”環境信息。為實現對云制造環境動態性的仿真,模擬器實現了隨機的制造服務提供商退出、云制造服務不可用、物流時間超過估計時長等動態變化,以模擬真實云制造過程中可能出現的供應商撤單、機器故障、物流異常等情況,以提高算法的魯棒性。隨機錯誤的比例設置為約3%,客戶指定的配件(云制造服務)比例設置為約3%,限定制造時間為不超過60天。

服務器設備搭載Intel Xeon E5-2698 V4處理器,64 GB內存,NVidia V100 GPU卡;軟件環境為CentOS 7.5操作系統,Python 3.8編程環境,PyTorch 1.8深度學習框架。模型迭代學習次數為20 000次,初始學習率為0.000 25,采用自適應矩估計(Adaptive Moment Estimation,ADAM)算法更新網絡參數,采用整流線性單元(Rectified Linear Units,RELU)函數作為隱藏層激活函數。模型訓練時,每次從容量為100 000的經驗回放池中選擇批次大小為64的數據樣本用于智能體學習,每次迭代更新Q值網絡參數,每迭代500次將Q值網絡的參數復制到目標值網絡,實現目標值網絡參數更新。獎勵折扣因子設置為0.99,ε-greedy中的設置為1。

3.2 實驗結果分析

根據文獻[10]和[11]云制造平臺的試運營經驗,工程機械行業客戶對云制造服務的關注點依次為“成本低”“時間短”“服務評價高”,故合理設定對應的優化目標Wt、Wc、Wq分別為0.3、0.6和0.1。由于優化目標是強化學習過程收斂的主要導向,也可以根據實驗設定或產業實際需求做相應調整、獲得關注點構成不同的模型;實驗采用的獎勵值函數與1.2節公式(5)的優化目標一致,均為截至目前的產品配置的全局獎勵歸一化值。將Wt、Wc、Wq都歸一化到[0,1]區間,理論上最優全局獎勵為0.1。模型訓練得到損失值變化曲線和獎勵值變化曲線分別如圖4和圖5所示。

圖4 模型訓練損失值變化曲線

圖5 模型訓練獎勵值變化曲線

由圖4可知,DQN算法學習的損失值逐漸下降,當訓練的迭代次數達到13 000次左右時,損失值基本收斂,意味著深度強化學習的超參數配置基本合理,算法運行基本正確,能夠獲得所需要的模型。

由圖5可以看出,隨著訓練迭代次數增加,獎勵值也在不斷增加且逐步穩定。這意味著基于深度強化學習DQN算法的云制造產品配置模型的效果在不斷提高。迭代次數達到10 000次以上時,GQoS全局獎勵值在較小范圍內波動,與損失曲線基本一致。模型全局獎勵值最終接近且收斂于理論獎勵值上限0.1,這表明基于DQN的產品配置求解方法可以獲得接近最優化的配置目標,也說明了將強化學習方法應用于云制造環境下的產品配置在總體來看是可行的,達到實驗目的。

4 結論

以全過程服務質量最大化為目標建立了云制造環境下產品配置模型,將云制造環境下的產品配置問題建模為強化學習問題,對強化學習的關鍵組件進行了完整表達,設計了基于深度Q學習的求解算法。輪式裝載機產品配置的仿真實驗表明,模型可以獲得接近最優化的配置目標,驗證了深度強化學習對云制造環境下的產品配置優化問題的有效性。

猜你喜歡
深度優化目標
超限高層建筑結構設計與優化思考
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
中學英語之友·上(2008年2期)2008-04-01
中學英語之友·上(2008年2期)2008-04-01
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合