?

基于DDQN 的生鮮農產品零售商庫存成本控制模型

2023-10-31 09:39李姣姣何利力鄭軍紅
智能計算機與應用 2023年10期
關鍵詞:訂貨總成本零售商

李姣姣, 何利力, 鄭軍紅

(浙江理工大學 計算機科學與技術學院, 杭州 310018)

0 引 言

生鮮農產品包括果蔬、肉類以及水產品等初級產品,在居民日常生活消費中占據重要地位[1]。 然而,生鮮農產品具有保質期短、儲存困難和損耗率高等特性。 發達國家生鮮產品的損腐率約為5%,而中國果蔬、肉類、水產品損腐率則分別高達15%、8%、10%,大幅提高了生鮮農產品的成本[2]。 冷鏈物流可以使生鮮農產品在加工、運輸、儲藏等過程中保持低溫狀態,從而保證產品質量,減少損耗。 而中國果蔬、肉類、水產品冷鏈流通率僅為35%、57%、69%[3]。 特別的,相較批發商,零售商還存在諸如庫存管理粗放,冷庫設施不足等問題。 因此,建立一個以生鮮農產品為核心的零售商庫存成本控制模型具有現實意義。

傳統的供應鏈庫存管理模型能夠降低庫存成本,但在實際運用中存在較大局限性。 如:供應商管理庫存模型、協同式庫存管理模型和聯合庫存管理模型[4]等管理成本高、操作難度大,ABC 庫存管理法和CVA(Critical Value Analysis)庫存管理法均無法給出科學定量的庫存控制方案,經濟訂貨批量模型的前提條件較為苛刻等。

強化學習方法可用于研究序貫決策和最優控制問題,近年來有學者將其引入供應鏈庫存控制研究中。 蔣國飛等[5]提出基于計數器的直接探索策略,并將該策略和Q 學習(Q-learning)相結合,解決具有連續狀態和決策空間的庫存控制問題。 Yu 等[6]將多智能體強化學習方法用于解決兩級備件庫存控制問題,結果表明優于(s,S) 策略的遺傳算法。Bharti 等[7]使用Q-learning 算法求解一個四階段串行供應鏈模型,解決訂單管理問題。 考慮到易腐品不易儲存、易腐爛、儲藏時間短等特性,Kara 等[8]將強化學習用于易腐爛產品的庫存訂貨策略,結果證明Q-learning 和SARSA 算法性能都優于遺傳算法。

在前人工作的基礎上,本文針對生鮮農產品零售商庫存成本問題,將其轉換為馬爾可夫決策過程,更加全面地考慮費用項。 其中包括過期費、缺貨費、訂貨費、持有費和損腐費。 另外考慮到在現實生活中生鮮農產品損腐率并非一成不變,使用三參數Weibull 分布描述損腐率。 從供應鏈的視角,對由一個批發商和一個零售商構成的單級供應鏈進行分析,運用深度強化學習領域中的DDQN 方法,制定訂貨策略以控制庫存總成本。

1 算法理論與方法

1.1 強化學習

馬爾可夫性質是指將來的狀態僅取決于當前狀態,而與過去狀態無關。 馬爾可夫決策過程(Markov Decision Process,MDP)滿足馬爾可夫性質。 MDP狀態轉移函數為

MDP 是強化學習的數學基礎,強化學習是基于智能體和環境的交互式學習方法。 智能體進行試錯學習,通過與環境交互獲得的獎勵指導動作,找到最優策略,以最大化累計獎勵[9]。 智能體與環境交互過程如圖1 所示。

圖1 智能體與環境交互圖Fig.1 Diagram of interaction between agent and environment

1.2 深度雙Q 網絡

Watkins 等[10]提出的Q-learning 方法,是強化學習中經典的價值迭代算法。 Q-learning 通過觀測、動作、獎勵的歷史序列,使智能體能夠在馬爾可夫域中學習,選擇最優行動。 Q-learning 中用貝爾曼最優方程進行估值更新。 貝爾曼最優方程為

通過求解該方程,尋找最優價值函數和最優策略。Q-learning 算法的動作價值函數更新迭代式為

Q-learning 用于復雜的現實問題不僅存在維度災難問題,還存在自舉和最大化導致的非均勻高估問題。 因此,Q-learning 在現實中表現并不理想。

Mnih 等[11]提出的深度Q 網絡(Deep Q Networks,DQN)將神經網絡和Q-learning 相結合,其中目標網絡和經驗回放的設計可以緩解Q-learning 自舉導致的非均勻高估。 經驗回放降低了樣本間的相關性,目標網絡則可以減弱預測Q值和目標Q值間的相關性。 DQN預測網絡的優化目標為

Van Hasselt 等[12]在DQN 的基礎上,將動作選擇和動作Q值估計分離,提出了DDQN,進一步緩解了Q-learning 最大化造成的高估。 DDQN 中使用目標網絡獲取最優動作,再通過預測網絡估計該動作的Q值。 DDQN 預測網絡優化目標:

1.3 三參數Weibull 函數描述易損腐物品

三參數Weibull 分布是概率論中的一種連續型分布,被廣泛應用于電子元器件的失效情況、物品的變質和擬合度模擬等諸多方面[13]。 本文采用三參數Weibull 函數描述生鮮農產品的損腐特征。

三參數Weibull 累積分布函數和概率密度函數的公式分別為:

式中:α、β、γ分別是三參數Weibull 函數的尺度因子、形狀因子和位置因子,t為時間。

1.4 單周期隨機型庫存成本控制模型

單周期隨機型庫存成本控制模型是運籌學存儲論中的一種庫存模型[14]。 單周期是指上一期剩余的庫存不會轉結到下一期,而多周期則與之相反。

設:貨物需求r是連續隨機變量,密度函數為Ф(r),k為單位貨物進價,p為售價,C1為存儲費。分布函數為

貨物存儲費為

最佳訂貨量q滿足

此時,庫存總成本最低。

2 研究內容

2.1 業務模型

供應鏈管理協調成員企業間合作關系,控制物流、資金流和信息流3 個關鍵流,涉及需求、生產運作、物流及供應4 個領域,具有交叉性、需求導向性、動態性等特征[15]。

如圖2 所示,整條供應鏈由供應商、制造商、批發商、零售商和顧客組成,本文主要研究批發商、零售商和顧客這3 個實體。

圖2 供應鏈模型Fig.2 Supply chain model diagram

假設:顧客需求D ~N(μ,σ2),商品售價為p,則期望總收入為pμ,是一個與庫存數量無關的常數。 因缺貨導致失去銷售機會而未實現的收入是潛在損失,是一種機會成本,定義為缺貨成本。 定義庫存總成本為缺貨成本加實際成本,則利潤等于期望總收入減去庫存總成本。 因期望總收入為常數,則庫存總成本越低,利潤越高。

為滿足顧客需求,零售商每天向批發商提交訂貨訂單,每天都更新一次庫存。 批發商每天向零售商提供貨物,批發商的商品數量無限。 商品訂貨提前期用m表示,訂貨提前期表示零售商發出訂單到收到貨物的時間。 商品生命周期用l表示,商品被零售商接收后,就進入生命周期,生存期也開始增加。

銷售產品使用先進先出策略,即先賣生存期大的產品以滿足客戶需求。 若商品生存期大于生命周期l,就產生過期成本;若商品生存期在損腐時期內就產生損腐成本;若商品無法滿足顧客需求,就產生缺貨成本。 DDQN 庫存成本控制模型如圖3 所示。

圖3 DDQN 庫存成本控制模型圖Fig.3 DDQN inventory cost control model diagram

具體業務流程如下:

(1)零售商將上一日訂購的商品入庫,并更新庫存。

(2)零售商接收客戶需求,如果能滿足需求則計算是否產生過期量和損腐量;否則產生缺貨量。

(3)零售商計算當日剩余庫存量和庫存成本,并更新庫存。

(4)零售商根據DDQN 庫存成本控制模型制定的訂貨策略,向批發商發送次日訂貨量

生鮮農產品屬于易損腐類商品,損腐率使用非線性函數μ(t),其計算公式為

其中,1<β <2 且γ >0,損腐率變化情況如圖4。 物品進入庫存系統不會立即損腐,而是經過一段時間才會損腐,該參數設置適合時滯或者易損腐物品庫存模型。

圖4 三參數Weibull 函數損腐率隨時間變化情況Fig.4 Change of decay rate of three-parameter Weibull function with time

2.2 DDQN 算法模型

本文使用DDQN 方法解決生鮮農產品零售商庫存成本控制問題,下面分別對狀態空間、動作空間、回報函數進行設計。 其中數學符號定義見表1。

表1 數學符號表示Tab.1 Mathematical symbol

2.2.1 狀態空間設計

在MDP 問題中,狀態信息代表智能體感知到的環境信息及其動態變化。 如果產品當前處于生命周期中,但產品數量不足,則認為是缺貨;如果產品有庫存但不在生命周期內,則視為過期。 產品生存期在損腐時期內就以一定比例進行損腐。 滿足庫存充足和生命周期要求的產品視為可供銷售。l為產品生命周期,t天的狀態變量為(l +3) 維向量。 狀態空間可表示為

2.2.2 動作空間設計

動作是指由智能體發出的行為和動作,以及智能體與環境之間發生的動作交互。 對于特定任務而言,動作空間在事實上決定任何算法所能達到的性能上限。 顧客需求D ~ N(μ,σ2),需求數據分布在(μ -3σ,μ +3σ) 的概率是99.73%,因此設qt為訂貨數量,qt∈[0,μ +3σ]取整數。 動作空間可表示為

2.2.3 回報函數設計

在強化學習任務中,智能體根據探索過程中來自環境的反饋信號持續改進策略,這些返回信息被稱為回報。 零售商滿足完需求后,剩余庫存量為

回報函數可表示為

3 實驗與評測

3.1 實驗設計

根據上述模型與算法分析,首先對算法的神經網絡進行設置。 設置經驗池容量大小N為300 000,每回合將隨機從中采樣;折扣率設為0.95;更新目標網絡的間隔設為1 周期;使用ε -greedy 探索策略,在訓練開始時以概率ε =0.9 隨機選擇動作,此時探索力度最大;隨著訓練進行,ε 逐漸線性下降直至最終的ε =0。

在這個過程中,DDQN 庫存成本控制模型訓練逐漸從“強探索弱利用”過渡到“弱探索強利用”。結合單周期隨機型庫存成本控制模型和固定訂貨量庫存成本控制模型,對比DDQN 庫存成本控制模型能否有效降低生鮮農產品庫存總成本。

實驗以白菜為例,跟據2022 年國家統計局數據得知白菜各種參數值見表2。 以1 000 天為一個周期,每天僅進行一次發送訂單和入庫操作,庫存總成本為1 000rt。 取α =0.2、β =1.5、γ =1,損腐率μ(t)=0.3(t -1)0.5。

表2 實驗參數Tab.2 Experimental parameters

為了驗證模型的有效性及實用價值,選擇固定訂貨量庫存成本控制模型和單周期隨機型庫存成本控制模型采用定期定量訂貨法,深度強化學習模型采用DDQN 方法進行對比實驗,3 種模型參數(如安全庫存、訂貨提前期、產品生命周期、損腐率等)均一致。

假設客戶需求數據服從正態分布,每個實驗周期為1 000 天,每天僅進行一次發送訂單和入庫操作。 將成本匯總得出結論。

3.2 結果分析

圖5 和圖6 分別為在不同需求函數下,3 種庫存成本控制模型在相同條件下的獎勵值變化曲線。從圖中可以看出,在訓練初始階段,由于動作網絡均處于動作探索階段,因此DDQN 庫存成本控制模型獎勵值較低,且存在較大波動。 隨著智能體開始從經驗池中提取歷史數據進行學習,獎勵值逐漸呈現明顯上升趨勢。 圖5 中,在50 周期左右時,DDQN庫存成本控制模型逐漸收斂于-6.94 萬元;圖6 中,在350 周期左右時,DDQN 庫存成本控制模型逐漸收斂于-68.39 萬元,優于固定訂貨量庫存成本控制模型和單周期隨機型庫存成本控制模型。

圖5 需求D ~N(100,102)時庫存成本控制模型實驗結果Fig.5 Experimental results of inventory cost control model for demand D~N(100,102)

圖6 需求D ~N(1000, 1002)時庫存成本控制模型實驗結果Fig.6 Experimental results of inventory cost control model for demand D~N(1 000,1002)

見表3,當需求服從正態分布N(100,102) 時,DDQN 庫存成本控制模型的總成本相對于單周期隨機型庫存成本控制模型和固定訂貨量100 庫存成本控制模型的總成本降低5.89%和10.04%;當需求服從正態分布N(1 000,1002) 時, DDQN 庫存成本控制模型的總成本相對于單周期隨機型庫存成本控制模型和固定訂貨量1 000庫存成本控制模型的總成本降低6.50%和11.57%。 固定訂貨量庫存成本控制模型損腐量最多,DDQN 庫存成本控制模型沒有損腐量。 可以看出,DDQN 庫存成本控制模型不僅優于單周期隨機型庫存成本控制模型和固定訂貨量庫存成本控制模型,且能夠解決維度災難問題。

表3 庫存成本控制模型實驗對比結果Tab.3 Comparison results of different inventory cost control models

4 結束語

本文將零售商生鮮農產品庫存成本控制問題轉換為馬爾可夫決策過程,引入三參數Weibull 分布描述生鮮農產品損腐特征,并使用深度強化學習中DDQN 方法進行求解。 通過多重對比實驗,驗證了DDQN 庫存成本控制模型能夠找到更優的訂貨策略以更有效的降低生鮮農產品庫存總成本。

本文研究零售商單級庫存結構,對于更加復雜的整個供應鏈的多級庫存結構、倉儲物品更加繁多的情況,可以通過多智能體深度強化學習方法解決。

猜你喜歡
訂貨總成本零售商
2020年中國棉花種植成本調查
完形填空兩篇
數據驅動下的庫存優化模型研究
橫向轉運策略下支付方式對訂貨決策的影響
橫向轉運策略下支付方式對訂貨決策的影響研究
線性盈虧平衡分析在TBM隧洞工程中的應用
國產品牌,零售商這樣說……
零售商都在做自有品牌化妝品,如何才能脫穎而出?
關于煤化工生產企業成本管控的思考
零售商:我是這樣開農民會的!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合