?

不確定性環境下在線實時定價的深度強化學習策略

2023-02-05 08:27王祖德陳彩華
管理工程學報 2023年1期
關鍵詞:定價收益動態

王祖德,陳彩華,李 敏

(南京大學 工程管理學院,江蘇 南京 210093)

0 引言

隨著商業的發展,傳統的固定定價模式已經難以適應需求動態變化的應用環境,給企業帶來了諸如庫存、銷售以及客戶滿意度等問題,很難滿足顧客差異化、多元化的消費需求。而動態定價伴隨商業數字化的加快越來越得到企業的青睞,這也是企業避免粗暴定價模式,走向精細化運營方向的一種方式。特別是國內外基于互聯網進行商品銷售的企業對動態定價策略的運用更為明顯,大型在線零售商亞馬遜針對平臺上數百萬的商品引入動態定價策略進行價格調整來增加收益和打擊競爭者;美團、淘寶、京東等電子商務平臺也積極引入動態定價對其平臺上的各種商品在不同供應時間點進行差異化的定價,諸如京東、淘寶平臺上的限時秒殺、閃購以及優惠券活動,美團上的外賣折扣券、配送費用分時段計價的方式。

現今,電子商務讓信息流全面轉向了線上平臺,使得數據資源集中在了電商平臺中心。一些大型的電商網站采集了豐富的數據資源,而這些數據中包含了消費者行為模式的重要信息,這使得利用數據對客戶需求估計來進行定價策略調整,增加產品周期內的累積收益成為了可能。然而,先前的研究主要存在以下兩方面問題:一方面,部分資料對動態定價問題策略的研究主要基于一些固有的假設,缺乏對數據本身潛在信息的挖掘;另一方面,很多基于數據來研究動態定價問題的策略難以應對大數據的應用場景,主要問題是難以表達高維數據特征所包含的需求信息和定價之間的復雜關系。近年來,深度強化學習理論在游戲[1-2]、推薦系統[3-5]等領域都取得了廣泛的應用,這促使了采用深度強化學習理論來研究動態定價問題。

本文采用深度強化學習理論研究依靠電子商務平臺進行銷售商品的動態定價問題。針對商品受到環境的復雜變化導致高水平不確定性需求的產生,依靠定價策略來學習需求的動態變化而進行價格調整。本文的貢獻如下:

1)提出了解決有限銷售時間段內在線銷售給定庫存量商品動態定價問題的動態定價學習框架DRL-DP 用于優化商品銷售的長期累積收益;

2)綜合考慮了影響需求變化的環境特征,提出了解決動態定價中高維狀態特征問題的Q-network 神經網絡;

3)設計了在線的定價代理交互環境用于訓練和評估DRL-DP 的表現。

本文的結構如下:第1 節,對研究問題的相關文獻進行了回顧;第2 節,對動態定價問題的要素進行了數學描述;第3 節,對動態定價問題的理論建模及算法設計進行了相關的敘述;第4 節是數值實驗;第5 節,對本文的研究工作進行了總結和展望。

1 文獻回顧

動態定價問題歷來受到關注。一些學者從貝葉斯理論的角度來解決動態定價問題,Mason 和V?lim?ki[6]在研究單個商品動態定價問題中,對顧客的到達率采用了貝葉斯學習的方式;Harrison 等[7]將需求不確定性限定在兩種需求函數中,采用貝葉斯方式學習最優定價策略。需求模型假設在一組有限的函數簇內,將價格優化轉換為多臂賭博機(multiarmed bandit,MAB)問題,Chhabra 和Das[8]研究了針對在線數字商品拍賣的MAB 問題學習;Xu 等[9]將具有時變回報的隱私數據動態定價問題轉化為MAB 問題;Moradipari 等[10]采用MAB 框架來解決價格受未知因素影響和響應隨機性的電力實時定價問題并通過Thompson Sampling 算法求解。不確定性環境下基于魯棒優化理論提出了保守性的動態定價策略,Li 等[11]對需求率模型具有不確定性的情況采用魯棒優化進行研究;Cohen 等[12]提出了直接從數據中學習魯棒性的動態定價策略。部分學者也從博弈論角度考慮多個參與主體的動態定價問題,陳曉紅等[13]研究了多零售商動態博弈定價;Srinivasan 等[14]利用博弈論對新加坡電力市場進行了動態定價建模;曾賀奇等[15]從博弈論角度考慮了兩競爭商定價問題。

近年來,強化學習在研究動態定價問題上也有一些進展。Han[16]在解決一般性動態定價問題將Bayesian 方法和Q-Learning 結合,采用貝葉斯的方式將MDP 的轉移函數和獎勵函數作為分布,并利用采樣方式進行動作的選擇;Collins等[17]比較了SARSA、Q-learning 和Monte-Carlo learning 這三種方法對于航空公司動態定價博弈的效果,并且還分析了將強化學習應用于此類問題所獲得的額外效益;Dogan 等[18]采用強化學習理論分析了在不同環境下各零售商在多零售商競爭環境中的定價決策;Rana 等[19]考慮了多個相互依賴產品的收益問題,當需求是隨機的且需求函數的形式未知時,使用強化學習來模擬相互依賴產品的最優定價;Cai 等[20]通過強化學習研究了電子商務市場中廣告實時競價問題;Lu等[21]采用馬爾科夫決策過程建模了分級電力市場中能源管理的動態定價問題并采用Q-Learning 算法求解。

綜上所述,前期的相關文獻對顧客到達率采用已知分布,需求和價格之間的關系假設為已知的帶有未知參數的函數或者函數簇。然而,現實應用場景中的顧客到達率以及需求受到環境多種因素綜合影響而變化。此外,在需求估計中采用了統計學習的方式,與價格優化分割成兩階段的決策模型。而采用強化學習理論研究動態定價問題作為一種免模型的方式,對需求估計和價格優化相結合,是單階段決策模型。但是前期關于強化學習研究動態定價問題的文獻多集中在表格式強化學習,模型的學習和表達能力有限,無法處理高維數據特征下的定價問題。而本文研究基于具有良好表征能力的深度強化學習理論來解決需求受到環境多種因素影響的實時動態定價問題。

2 問題描述

電商平臺進行銷售的部分商品需在固定的銷售時間段內銷售給定的庫存量,特別是易腐性和時尚類商品,而平臺由于數據獲取、存儲、利用的便利性以及環境交互的可實施性,特別適合于動態定價策略的運用。這類商品由于在銷售單個周期時間內不允許進行再次補貨,銷售末期剩余的商品不存在殘值。當面臨復雜的市場變化環境時,往往需求快速地變化而難以確定,此時可以利用數據學習需求的動態變化,通過相關的數據特征變化來反映需求的動態變化情況,采用動態定價策略來控制庫存水平的狀態變化。因此,當面對復雜的不確定性需求環境時,商家一般會采用動態定價策略來提高累積收益。針對該問題做出如下假設:

N:表示給定商品的庫存量,在單個銷售周期內不允許再次補貨,剩余商品的殘值為零;

t:表示調整定價的時間步,t=1,2,…,T,最多可以進行T次價格的調整。實際應用中難以做到連續地調整價格,因此采用這種固定的時間間隔來調整價格是最為合理的方式之一;

pt:表示在時間步t的定價,pt屬于一個定價集合P,即pt∈P;

nt:表示在時間步t時給定價格pt后的[t,t+1)時間段內銷售出的商品數量。

基于以上假設,此問題可以建模為:

這里的銷量nt表示需求環境對定價pt的響應,由環境特征的動態變化以及需求敏感性所決定;pt是通過學習算法感知環境特征變化來權衡當前定價收益與未來收益給出的定價。接下來,將根據問題描述分析基于深度強化學習理論的定價模型以及仿真環境的構建。

3 動態定價模型

3.1 動態定價的MDP

本文將此類動態定價問題建模為離散有限的MDP。MDP 由〈S,A,P,R,γ〉五元組構成,S表示狀態空間,A表示動作空間,P:S×A×S→[0,1]表示狀態轉移概率函數,R:S×A→? 表示回報函數,γ∈[0,1]表示折扣因子。上述動態定價問題MDP 的具體分析如下:

狀態空間S:狀態信息通過特征描述,即S=(S_observation,S_stock,S_seq)。其中,特征分為觀測狀態S_observation,庫存狀態S_stock以及序列反饋信息S_seq三組。觀測狀態表示對定價市場環境的感知,可以是當前時間步同類競爭商品的價格、不同時段顧客的流量等影響顧客到達率以及需求敏感性的特征;庫存狀態由當前定價時間步到銷售期結束的剩余時間量和剩余庫存量構成;序列反饋信息表示從定價開始到當前時間步的庫存狀態變化、銷量狀態變化以及定價狀態變化的序列反饋,用于學習不同時間步狀態信息下采取不同定價動作的需求敏感性變化特性,如下圖2 的Qnetwork 所示,在時間步t的序列反饋信息表示為S_seqt={(ki,ei,di),i=1,2,…,t-1},其中ki,ei,di分別表示在時間步i的剩余庫存量占總庫存量N的比例,i到i+1時間段的銷量ni占總到達人數arrivei的比例,i到i+1 時間段的定價折扣率。

動作空間A:在動態定價中采用了折扣率的調整方式,動作空間A表示定價折扣率集合。假設顧客接受的最大保留價格為Pmax,如果采用J個不同的折扣率,則A={dr1,…,drJ}。時間步t的動作at∈A,那么實際的定價為Pmax·at。這種價格調整方式是電子商務平臺上最為常見的一種方式。例如,采用限時折扣券。

狀態轉移概率函數P:p(st+1|st,at)表達了在狀態st,采取動作at,狀態由st轉移到st+1的概率。狀態轉移不確定性的來源主要在于當前庫存狀態下觀測狀態影響因素的動態變化導致顧客到達率的變化以及市場環境對定價動作at的需求響應強度。

回報函數R:在時間步t的狀態st下采取動作at后,定價環境會對相應的定價動作給予一定的立即回報rt+1。本文并沒有沿用前期大多數強化學習處理動態定價問題文獻中采用[t,t+1)時間段的立即收益rt+1=Pmaxat·nt作為回報,而在立即回報中引入了銷量轉化率,將立即回報定義為rt+1=?;貓蠛瘮迪啾扔诹⒓词找?能夠表達不同定價對顧客到達量產生的收益轉化。此外,在不確定性的定價環境中采用立即收益作為回報的數值波動較大,導致對狀態-動作值估計的方差較大,不利于算法的收斂,當在立即回報中引入比例可以抑制數值波動的劇烈變化,提高對狀態-動作值估計的準確性。

折扣因子γ:γ度量了未來收益對于當前時刻所選擇動作的貼現率,用于衡量當前立即回報和后序延時獎勵的相對重要程度,由人為經驗確定。

圖1 展示了動態定價問題的代理與定價環境之間的MDP 交互過程。隨著定價時間步t遞進,代理獲取定價環境中的狀態信息st,利用算法學習定價策略π給出定價動作at,促使定價環境狀態轉換到st+1并給予相應的立即回報rt+1,形成狀態轉換對(st,at,rt+1,st+1)。代理與定價環境持續交互,利用環境反饋,通過算法不斷進行試錯學習,積累定價經驗,達到優化定價策略的目的。

圖1 動態定價的馬爾科夫決策過程Figure 1 The MDP of dynamic pricing

動態定價策略的學習采用隨機性策略π:S×A→[0,1],將狀態可選擇的動作映射到一定的概率上面,并滿足下列的條件:s∈S,π(a|s)≥0,∑a∈Aπ(a|s)=1。代理的目標是通過持續交互尋找一個最佳策略π?來最大化定價軌跡τ={s1,a1,r2,s2,a2,r3,…,sT,aT,rT+1,sT+1}的長期回報期望:

公式(2)中的r(τ)=,Eτ~π(τ)[r(τ)]實際表達的是周期內累積收益的近似期望,代理通過與環境的交互學習來求解公式(1)中精確規劃模型的近似解。

3.2 定價算法

強化學習是一種在線自適應學習框架,被廣泛用于處理序列決策問題?;趶娀瘜W習理論解決動態定價問題具有的優勢在于強化學習從與環境的交互經驗中學習最佳的定價策略,能夠隨環境變化而自適應地調整定價,并將需求估計與價格優化兩階段結合在一起。此外,對定價環境并不需要模型假設。深度強化學習框架DQN(Deep Q-network)[1]以及變體Double Q-learning[22]、Dueling DQN[23]等得到了廣泛的應用,本文基于DQN 原理提出了解決高維數據特征下的動態定價學習框架DRL-DP。

Q-learning[24]是解決MDP 問題的一種表格式強化學習算法,在Q-learning 算法中為了評估當前狀態s下根據策略π采取定價動作a產生的長期回報期望,定義狀態- 動作值函數Qπ(s,a):

根據上述公式(3),最優的Q?(s,a)=,那么最優的策略即是在每個狀態s下選擇最優的狀態-動作值Q?(s,a)下的定價動作a。根據貝爾曼等式[25],有:

因此,根據狀態-動作值函數Qπ(s,a)可以評估策略π的優劣,Q-learning 算法通過公式(5)迭代方式不斷優化狀態-動作值函數去改進策略。α∈[0,1]表示學習率:

對于本文的動態定價問題,每個定價時間步的狀態屬于高維特征空間采樣,采用Q-learning 算法的方式去估計每個狀態-動作對(s,a)的Q(s,a)值是不可行的。解決此問題,可以采用參數為θ的函數近似器來估計Q(s,a)≈Q(s,a|θ)。對于高維狀態特征空間下的動態定價問題,狀態-動作值函數Q(s,a)是非線性的,文獻[1]提出了良好的非線性近似器——神經網絡Q(s,a|θ)去估計Q(s,a)。針對本文所解決的動態定價問題的Q-network 神經網絡設計在3.3 節進行了詳細的介紹。為了訓練Q-network,采用均方誤差L(θ)作為損失函數:

公式(6)中的D={(st,at,rt,st+1)}表示代理與環境交互形成的狀態轉換對集合,對于損失函數L(θ)一般采用批量梯度下降算法及其變體來訓練。

接下來,本文根據DQN 原理在表1 中詳細介紹了動態定價學習框架DRL-DP。在DRL-DP 中,本文對ε-greedy 策略的探索率ε采用了逐步衰減的方式,表明在代理與定價環境的交互初期鼓勵積極的探索,隨著交互進行逐步減小探索而增加對現有最佳策略的利用。對目標網絡的更新采用了軟更新機制,使得交互過程更加地平穩,不會使得定價策略突然發生較大改變,影響顧客體驗。

表1 動態定價算法框架DRL-DPTable 1 The DRL-DP for dynamic pricing

3.3 Q-network 架構

Q-network 架構的設計關系到正確地近似表達不同狀態下采取不同動作的累積折扣回報價值,在圖2 中展示了本文設計的Q-network 架構。本文對Q-network 架構的設計綜合考慮到了狀態信息、觀測信息以及序列反饋信息來評估當前狀態下選取不同動作的累積折扣回報價值。因此,針對底層特征提取分別設計了觀測狀態、庫存狀態和序列反饋信息模塊。

圖2 Q-network 的架構Figure 2 The architecture of Q-network

觀測狀態信息提取:根據具體應用場景中的觀測特征特點設計相應的特征提取,獲取對顧客到達率以及需求信息表達所需的高階特征層L1以便進一步優化。

庫存狀態信息提取:庫存狀態信息固定,輸入的庫存狀態包含了不同時間段的庫存信息,通過全連接層得到待查詢的庫存信息層高階表示L2。

序列反饋信息提取:在動態定價問題中,每個時間步的定價動作決策需要考慮當前定價動作帶來的立即回報與未來收益之間的平衡,歷史的定價序列可以用于學習不同時間步在不同狀態下的定價需求敏感性變化經驗。序列反饋信息提取的輸入為當前定價時間步t之前不同時間步的序列元組信息(ki,ei,di),其中i=1,2,…,t-1。本文采用長短記憶神經網絡LSTM-0(Long Short-Term Memory,LSTM)不區分定價動作去捕獲序列元組所帶來的價值x0。此外,為了提取不同時間步在不同狀態下采取不同動作的價值信息,根據采取的動作不同分別采用LSTM-1,…,LSTM-J 提取相應動作下的序列元組信息,得到綜合的信息表達x1,…,xJ。如果只采用LSTM-0 部分,那么就可能會掩蓋在信息變化中不同動作所帶來的價值區別以及因為對某個動作探索不足導致信息過少而其價值被忽略掉。

多層全連接層:將L1,L2,L3信息層拼接后,采用多層全連接層提取綜合信息表達。

狀態-動作值輸出層Q:表示在狀態st下,定價集合A中每個定價動作的狀態-動作值Q(st,drj)作為對動作價值的估計。

4 數值實驗

接下來,本文將DRL-DP 與基于表格式強化學習動態定價算法Q-learning[26]、Q(λ)[27]的定價策略學習能力在模擬的不確定性動態定價環境中進行了對比分析。Q-learning、Q(λ)與DRL-DP 在MDP 定義的不同之處在于狀態空間為商品剩余的庫存量,回報函數采用立即收益Pmaxat·nt。實驗內容如下:1)對比三種強化學習動態定價算法的收益表現以及定價策略的收斂情況分析;2)分析探索率對三種強化學習動態定價算法收益的影響;3)分析DRL-DP 回報函數設計的合理性。

4.1 實驗環境設置

實驗環境中假設代理不知道顧客的到達率以及需求模型,只通過與環境交互基于歷史觀測數據學習而作出定價決策,相關的實驗數據通過如下假設生成。

顧客到達率模型:假設顧客的到達率是具有時間相關性的泊松分布,這個假設是隨機性的。顧客的初始平均到達率為μ(1),由在區間[x0,x1]的均勻分布生成,平均到達率隨時間t遞減μ(t)=μ(1)-ξt,t=2,…,T。這符合對一部分易腐性和時尚類商品的需求熱度隨銷售時間的推移而逐漸降低的現實應用背景。

需求模型:假設顧客支付意愿隨距離售賣截止時間的接近而呈現指數性的增加,實際需求通過需求函數dt=u(t)-生成。

上述的顧客達到率模型和需求模型參照了文獻[27]的生成方式。

DRL-DP 觀測空間的特征生成:觀測空間表達了代理對市場環境的感知,市場環境信息是由特征構成的(例如,人流量動態變化、競爭對手產品價格變化等),直接影響顧客到達率??坍嬘^測空間特征對顧客到達率的影響,即表達顧客到達率μ(t)與觀測空間特征之間的關系,那么可以利用μ(t)生成觀測空間的特征,表達特征決定不同時段的顧客到達率,建立觀測空間特征與μ(t)之間的聯系。本文采用了三層前饋神經網絡模擬,網絡的輸入為顧客到達率μ(t),輸出為觀測空間的m個特征,即觀測空間在時間步t的觀測狀態S_observationt=。

具體的環境參數設置如下所示:

初始庫存N=300;

單周期最多定價次數T=10;

保留價格Pmax=20;

動作集合A={1.0,0.7,0.5,0.3,0.1};

顧客到達率μ(1)∈[60,80],μ(t)=μ(1)-5t;

需求函數dt=u(t)-5t·;

觀測空間的特征數量m=10。

4.2 結果分析

文中4.1 節動態定價問題的最優定價策略由已知顧客到達率和需求全部信息的動態規劃計算得到。表2 總結了三種算法在與環境交互學習一定迭代幕數之后的平均收益占最優定價策略取得收益的百分比。Q-learning 和Q(λ)的定價策略收斂速度較慢,平均收益取10000 幕迭代所得,DRL-DP 的定價策略收斂速度快,平均收益取1000 幕迭代所得。從總的平均收益水平分析可知,DRL-DP 從觀測空間的狀態特征學習到了顧客的到達率信息,收斂速率快,前1000幕與環境的交互已經比表格式強化學習動態定價算法10000幕的交互提升了百分之十幾的平均收益水平。

表2 比較不同算法的平均收益Table 2 Comparison of the average revenue from different algorithms

下面比較三種動態定價算法策略的收斂情況。從圖3和表3 中可知,隨著與環境交互的增多,DRL-DP 在與環境的交互中逐漸學習改進定價策略,隨著迭代幕數的增多,收益不斷提高,最后策略收斂,收益趨于穩定。此外,可以比較出DRL-DP 的定價策略學習能力明顯優于Q-learning 和Q(λ),收斂速度快,前100 幕所取得的平均收益已經高于了Qlearning 和Q(λ),在[500,1000]幕的平均收益已經趨于平穩,并且顯著高于前兩者算法的定價策略收斂到平穩狀態后的平均收益。由于在不確定性的定價環境中,需求與顧客的到達率存在相關性,Q-learning 和Q(λ)定價模型的學習表達能力有限,造成對狀態-動作值的估計需要采樣更多的數據而導致算法的收斂速度較慢。此外,受到顧客到達率隨機性的影響,Q-learning 和Q(λ)缺乏對觀測空間特征信息的掌握,導致Q-learning 和Q(λ)估計的狀態-動作值不夠準確并且產生波動,而DRL-DP 利用神經網絡去近似值函數能夠在不確定性的定價環境中對其估計更加準確。實驗結果驗證了DRL-DP 在不確定性動態定價環境中具有比表格式強化學習動態定價算法更優的定價策略學習能力。

表3 在不同迭代幕數下的平均收益Table 3 The average revenue with different number of episodes

圖3 不同算法隨迭代幕數的收益變化Figure 3 The revenue with different number of episodes

下面分析探索率對平均收益的影響,表明探索率采用逐步衰減是一種更為合理的方式。本文分析了三種算法在逐步衰減探索率(從1 逐步衰減到0.01,即1→0.01)和不同固定探索率下的平均收益。在表4 中,Q-learning 和Q(λ)取10000 幕迭代的平均收益,DRL-DP 取1000 幕迭代的平均收益。從表4 分析可知,一個適中的探索率能夠產生更高的平均收益,而探索過多不利于定價策略的收斂而且持續性過高的探索率還會影響顧客體驗;探索過少容易使定價策略收斂到較差的次優解,在這兩種情況下都會導致降低平均收益水平,一個更好的策略是采用逐步衰減的探索率來平衡探索與利用之間的關系。此外,實驗結果也表明在不同的探索率下,DRL-DP 相比另外兩種算法在大多數情況下都能取得更好的平均收益。

表4 不同探索率對平均收益的影響Table 4 The effect of different exploration rates on average revenue

下面分析DRL-DP 采用兩種不同回報函數Pmaxat·nt和對收益的影響,表明本文定義回報函數為的合理性。圖4 展示了DRL-DP 在兩種不同回報函數下收益曲線的變化以及取得的平均收益,可知對于DRL-DP,當回報函數定義為取得的平均收益(89.0%)顯著高于回報函數為Pmaxat·nt取得的平均收益(78.4%)。這是因為回報函數能夠表達價格與收益轉化率的關系。在實驗環境中顧客流量是變化的,并且會使得需求產生自相關。顧客流量的變化會導致同一價格產生不同的收益,每個時段的收益轉化率都是不同的,能夠表達價格主導的這種收益轉化率關系,所以取得的實際收益水平更好。此外,從收益曲線可以看出采用Pmaxat·nt作為回報函數,由于對狀態-動作值估計的方差較大而導致了更大的收益波動情況,而在立即回報中引入比例提高了對狀態-動作值估計的準確性,不僅提高了平均收益,而且提高了策略在不確定性動態定價環境中的穩定性。

圖4 DRL-DP 采用兩種不同回報函數下的收益表現Figure 4 The performance of the DRL-DP with two different reward functions

5 結語

本文基于深度強化學習理論提出了解決不確定性環境下有限庫存動態定價問題的學習框架DRL-DP,并模擬了需求跨時段相互依賴的不確定性動態定價環境。通過仿真實驗表明在不確定性動態定價環境中,需求與定價環境的特征存在相關性時,DRL-DP 相比于傳統的表格式強化學習動態定價算法能夠學習到更優的動態定價策略。

DRL-DP 與環境交互學習動態定價策略,自動從定價環境中的各種影響因素學習需求與價格的關系來最大化長期累積收益,通過交互經驗改善動態定價策略。DRL-DP 不需要模型配置,同時適用于高維狀態特征的學習,這對于大數據環境下現實應用問題的動態定價策略探索具有積極的意義?,F實應用場景的環境更加復雜多變,希望未來對此方面感興趣的學者能夠基于真實的應用場景數據來解決動態性數據的獲取問題,以實現更進一步的研究。

猜你喜歡
定價收益動態
30萬元的MPV攪局者來了!傳祺M8宗師系列為什么定價貴?
國內動態
國內動態
國內動態
螃蟹爬上“網” 收益落進兜
動態
利用Fabozzi定價模型對房地產金融衍生品定價的實證分析
怎么設定你的年化收益目標
基于分層Copula的CDS定價研究
2015年理財“6宗最”誰能給你穩穩的收益
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合