?

混合數據的多集群系統中數據價值與信息年齡的聯合優化

2024-01-27 06:57陳前斌
電子與信息學報 2024年1期
關鍵詞:時隙數據包信道

羅 佳 陳前斌 唐 倫

①(重慶郵電大學網絡空間安全與信息法學院 重慶 400065)

②(重慶郵電大學通信與信息工程學院移動通信技術重點實驗室 重慶 400065)

1 引言

不同于傳統無線傳輸技術主要關注傳輸速率或時延,視頻直播等新興移動互聯網應用由于其業務性質對網絡數據的時效性有了更精細化的需求,其亟需一種有效的性能指標去度量相關數據或信息的時效性。為進一步量化網絡數據的時效性,越來越多的學者提出采用信息年齡(Age of Information,AoI)來衡量數據的新鮮度或及時性。AoI綜合考慮數據的生成時間及傳輸時延。對于某個節點的AoI其關注對象是該節點最新收到的數據包,AoI被定義為該最新數據包自生成以來經過的時間[1]。

關于AoI的研究,文獻[1]最早提出了AoI的概念。近年來,AoI逐漸被研究人員作為性能指標來衡量無線網絡中的數據新鮮度。文獻[2]基于搭載傳感器的無人機網絡,通過聯合考慮感知時間、傳輸時間、無人機軌跡以及任務調度來實現AoI的最小化。文獻[3]則進步一將無人機輔助的物聯網與能量收集技術相結合,研究了相應的AoI優化問題。文獻[4]基于具有功率約束的傳感器物聯網,研究了時變信道下中心控制器的AoI優化問題。文獻[5]則針對AoI研究了數據傳輸時延為多個時隙的物聯網環境下相應的在線優化問題。

關于視頻直播的研究,相關文獻主要關注直播的用戶體驗質量(Quality of Experience, QoE),QoE與視頻質量和傳輸時延有關。例如,文獻[6]在一個獨立的5G測試環境中測試了上行視頻傳輸在時延方面的性能,并指出合理的上下行配比能有效緩解視頻直播應用在上行鏈路方面的數據擁堵。文獻[7]將視頻質量定義為與視頻平均碼率有關的對數函數,在滿足時延約束的條件下最大化無線接入網中的視頻質量。文獻[8-10]也基于具體的網絡模型給出了視頻直播的QoE定義并進行優化。

現有研究通常將AoI作為單一指標來評估網絡的數據新鮮度,然而,在某些應用中,也需考慮接收數據的價值。數據價值可以看作數據對于系統業務的重要程度,例如,在視頻直播場景,對于一個以看重視頻質量的消費群體為目標客戶的直播活動,文獻[7]中的視頻碼率可用于衡量視頻的數據價值。對于利用邊緣服務器實現機器學習的邊緣智能場景,文獻[11,12]則指出無線傳輸數據的不確定性及其信噪比可用于衡量該場景下機器學習訓練數據的重要程度。另外,在對重要活動的直播中,可使用無線傳感器來收集活動現場的實時環境數據,不同的環境數據具有不同的價值。在數據價值敏感的系統中,需在保證接收數據具有一定價值的同時提高數據的新鮮度。此外,現有關于視頻直播的研究主要聚焦視頻的QoE優化,而較少關注視頻數據的AoI,作為同樣對數據新鮮度要求較高的應用場景,視頻直播同樣需要關注對于AoI的優化?;谝陨嫌^察,本文的貢獻主要有以下兩個方面:

(1) 針對AoI的研究中數據價值考慮不足的問題,本文基于直播終端和無線傳感器共同部署的視頻直播系統,以直播終端為中心劃分為視頻數據與環境數據混合的多集群系統,利用環境數據需求的急迫性與視頻碼率構造了系統的數據價值等級劃分,并建立關于時間平均數據價值和AoI的聯合優化問題。

(2) 為實現有效的問題求解,本文將原問題的調度策略分解為相互關聯的內外兩層策略,同時,考慮到AoI的動態變化特性,提出一種基于深度強化學習的雙層調度策略以克服原問題動作空間過大的問題。仿真結果則驗證了本文所提方法的有效性。

2 系統模型和問題

對基于無線鏈路的視頻直播系統,多個直播終端作為直播視頻源需通過上行鏈路傳輸源視頻到無線基站,基站利用連接的邊緣服務器對源視頻進行視頻轉碼等處理操作從而向其覆蓋范圍內的各類終端消費者提供不同碼率的直播服務,同時基站也需通過核心網將源視頻傳播至其他地理區域的終端以提供大范圍的直播服務。本文主要考慮無線直播系統的第1個環節,即直播視頻源終端到相應基站的上行傳輸鏈路。

具體來說,本文考慮一個針對重要活動的視頻直播系統,一方面,單個基站需收集其覆蓋范圍內的直播源視頻,為實現對同一重要活動的全方位直播,N個連接或配備攝像設備的直播終端在活動場館的不同位置以不同視角對該活動進行直播,直播終端作為直播視頻源通過上行鏈路傳輸源視頻到基站。另一方面,為保證重要活動的實施效果,需在活動場館的不同位置配備多個無線傳感器從而采樣收集多方位的環境相關數據,傳感器作為無線終端也需通過上行鏈路將其采樣的數據發送到基站并通過基站將數據發送到監控中心。系統一共有L(L >N)個帶寬不同的上行無線信道,為保證視頻直播的連續性,調度策略在每個時隙需為每個直播終端均分配1個上行信道。此外,還需為無線傳感器分配回傳其數據的上行信道,因此,每個時隙最多有L-N個信道可被分配用于進行傳感器數據的上行傳輸,其中L-N ≤N。

在具體實施時,為了向監控中心提供及時且多方位的環境相關數據,將以上兩類終端以直播終端為中心劃分為大小相等的N個集群,每個集群包含的終端數用M表示,其中包含一個直播終端以及在其附近的M-1個無線傳感器。具體的終端索引號用m表示,m=1對應集群中的直播終端,m(1<m ≤M)則對應集群中的無線傳感器。為避免單個集群內(即同一位置附近)的無線傳感器占用過多的信道資源,除了直播終端,集群n在時隙t最多可選擇一個無線傳感器上傳其采樣的環境相關數據。直播視頻傳輸時可以視頻時長為單位將視頻數據分割為多個時長為z的視頻數據包進行傳輸。對于不同的直播終端,其對視頻碼率選擇的不同可使得各自視頻數據包的大小存在差異,而對于同一直播終端,由于存在動態的碼率自適應策略,其數據包大小在不同時隙也可能存在差異。對于直播視頻,其數據包的視頻碼率劃分為I個等級,i(i ∈{1,2,...,I})表示具體某個視頻數據包的碼率索引號,索引號越高對應的視頻碼率也越高。xi(xi ∈X)為對應的視頻碼率,X則為直播系統所支持的視頻碼率集合。因此,單個視頻數據包大小為zxi。此外,上行傳輸所分配的信道具有不同的帶寬和增益,對應的各終端上行傳輸速率也存在差異。 R表示系統支持的上行傳輸速率集合,Rl(Rl ∈R)則為信道l(l ∈{1,2,...,L})的上行傳輸速率。單位時隙時長為b,用dv表示單個視頻數據包完成上行傳輸所需的時隙數,基于上述討論可知

對于傳感器數據的上傳,由于并非所有傳感器均在每個時隙接入無線信道進行上傳,因此采用類似文獻[13]的Will模型,即對于在時隙t分配到信道的傳感器,其在時隙t之前采樣的數據均被丟棄,僅上傳在時隙t最新采樣的數據,直到該數據完成上行傳輸才會釋放被分配的信道。 Y表示傳感器支持的環境數據包大小集合,|Y|=Y,j(j ∈{1,2,...,Y})表示環境數據包大小的索引號。yj(yj ∈Y)則為對應的數據包大小。用ds表示傳感器數據完成上行傳輸所需的時隙數,因此有

φl,n,m(t)∈{0, 1}表示集群n內終端(包括直播終端和傳感器)m在時隙t的信道l上的狀態,如果終端(n,m)在時隙t被分配到信道l(l ∈{1,2,...,L})進行上行傳輸,則φl,n,m(t)=1,否則,φl,n,m(t)=0。當時,即終端(n,m)在時隙t占用無線信道進行上行傳輸,對于正在傳輸的數據包,用μn,m(t)表示其數據生成的時隙,νn,m(t)則表示該數據包完成上行傳輸所需的時隙數,因此有

其中,in(t)表示時隙t集群n正在傳輸的直播終端數據包對應的碼率等級,jn,m(t)則表示時隙t傳感器(n,m)(m ?=1)正在傳輸的環境數據包大小的索引號。

2.1 信息年齡

由于對直播視頻與現場環境數據的需求均看重數據的及時性或新鮮度,因此本文采用AoI作為系統性能的評估指標。AoI被定義為目標節點最新接收到的數據包自其生成以來所經過的時間,基于此,對于在時隙t基站已完成接收的來自終端(n,m)的最新數據包(并非正在傳輸的數據包),用表示其數據生成的時隙。Δn,m(t)表示基站在時隙t關于終端(n,m)數據包的AoI,則有Δn,m(t)=t-。如果終端(n,m)在時隙t完成了對應數據包的上行傳輸,則相應的AoI在時隙t+1需更新為νn,m(t)=t+1-μn,m(t),否則,AoI需更新為Δn,m(t)+1=t+1-。綜上所述,Δn,m(t)的更新遵循如式(6)

因此,基站在時隙t關 于其接收數據的AoI可計算為

2.2 數據價值

除了用AoI衡量數據的新鮮度,還需考慮數據本身的價值。對于注重視頻質量的直播系統,本文采用視頻碼率來衡量視頻數據價值,視頻碼率等級越高其價值也越高?;局饕P注接收成功時視頻數據包的碼率等級,對于集群n,用In(t)表示基站在時隙t接收到對應直播視頻數據包的碼率等級,如果集群n的直播終端在時隙t完成其視頻數據包的上行傳輸,則In(t)=in(t),否則,In(t)=0。因此,In(t)可由式(8)計算

類似的,傳感器采樣的環境數據也有不同的價值分級,設環境數據的價值分為F個等級,等級越高則表示價值越高。表示集群n的傳感器m其數據包價值等級為f(f ∈{1,2,...,F})的概率,因此有

對于傳感器(n,m)(m ?=1),當時,用fn,m(t)表示其在時隙t傳輸的數據包所對應的價值等級,Fn,m(t)則表示基站在時隙t接收到對應環境數據包的價值等級,則有

綜上,基站在時隙t關于其接收數據的價值可計算為

2.3 問題建模

在每個時隙的開始,基站需基于其調度策略將空閑信道分配給需要上傳數據的終端??紤]數據價值和AoI存在相互影響的關系且兩者性能的優化分別對應各自的最大化和最小化,因此,為實現系統數據價值和AoI的聯合優化,本文采用時間平均的數據價值與AoI比值(Ratio of Data Value to AoI,RDVA)。RDVA可用于衡量系統在單位時隙的數據新鮮度下能傳輸的數據價值大小,更大的RDVA意味著相應數據具有較好的數據新鮮度和較高的數據價值。相應的優化問題可表述為

約束條件 C1表示為保證視頻直播的連續性,調度策略在每個時隙需為每個直播終端均分配1個上行信道。約束條件 C2表示為避免單個集群的傳感器占用過多信道資源,調度策略在每個時隙對任意集群n最多選擇一個傳感器上傳其采樣的環境數據包。約束條件 C3表示每個信道最多只能與一個終端配對。約束條件 C4則表示每個時隙最多有L-N個信道可被分配用于進行傳感器數據的上行傳輸。

3 調度策略

因此,問題P1可等價地轉化為如式(16)的減法形式

由于q*未知,所以問題P2仍難以求解。為便于求解,定義如式(17)變量q(t)代替問題P2中的未知量q*

其中,q(1)=0,參數q(t)的值取決于過往的調度決策。將q*替換為q(t),則問題P2可轉化為

由于AoI的動態變化特性,問題P3可采用深度強化學習進行求解。調度策略的可行動作空間大小為(NM)!/(NM-L)!,可以看出,該優化問題具有較大的動作空間,從而使得相應的算法難以實現有效的求解。為應對這一挑戰,本文將上述問題的調度策略分解為集群間的信道分配和集群內的鏈路選擇,基于此,可形成一個由內外兩層策略組成的分層調度策略。內外兩層策略以集群為分界點進行劃分,外層策略決定空閑信道分配到哪個集群,包括用于視頻數據傳輸的信道分配和用于環境數據傳輸的信道分配,內層策略則用于做出鏈路選擇決策,其主要決定集群內傳感器與信道配對的情況。

3.1 外層策略

外層策略采用深度強化學習來實現集群間的信道分配,深度強化學習的智能體可通過與環境間的持續交互來學習最優策略。具體來說,本文采用被稱為異步優勢動作評價(Asynchronous Advantage Actor-Critic, A3C)的深度強化算法[15]。為表示方便,用i(t),j(t),f(t),μ(t)和Δv(t)分別表示相應的狀態向量

基于此,時隙t的狀態s(t)可表示為

考慮到每個直播終端均會保持不間斷的上行數據傳輸,而傳感器則可能會由于空閑信道的不足而暫時停止傳輸,因此,可合理假設該視頻直播系統中的視頻數據傳輸相比環境數據傳輸具有更高的優先級。為優先保證視頻直播的流暢和穩定,可將傳輸速率最高的N個信道均分配給各集群的直播終端。各信道對應的傳輸速率按照信道索引號降序排列,即Rl ≥Rl+1(l ∈{1,2,...,L})?;诖?,對于時隙t的策略動作a(t),外層策略的動作空間可劃分為用于視頻數據傳輸的集群間信道分配和用于環境數據傳輸的集群間信道分配兩類動作,分別用av(t)和as(t)表示,即

南川區地處亞熱帶溫潤季風區,氣候溫和,雨量充沛,云霧多、日照少、綿雨久、濕度大。氣候垂直分帶明顯,隨標高的增加年平均氣溫降低,而降雨量增加。區內多年來年平均降雨量1434.50mm,歷年最大年降雨量1534.8mm(1998年),大氣降水季節分配極不均勻,最枯為一月,雨季為5、6、7、8四個月,具有降雨集中,多暴雨、雨強大的特點。24h最大降雨量達259mm,1h最大降雨量為113.2mm,10min最大降雨量為24.3mm。大量研究表明:泥石流的形成與區內的短時強降雨密切相關,強降雨為泥石流的形成提供了充分的降水條件[4],離沙溝泥石流最近的金佛山氣象站區內多年月平均降雨量統計見表1。

A3C的目標是最大化累積折扣獎勵函數,即狀態價值函數,其計算公式為

其中,γ為折扣因子,Eπ{·}表示智能體采用策略π進行序貫決策時的期望值。A3C利用多核CPU來運行多個智能體,多核CPU的每個線程包含一個智能體以及相應的環境副本。每個時隙智能體均計算并保存關于神經網絡參數的導數,每隔一定數目的時隙,每個智能體使用各自在該時段中的累計導數并以異步的方式更新全局共享的神經網絡參數集。一個執行A3C算法的智能體包含兩個部分:行動者(Actor)和評價者(Critic)。行動者為一個神經網絡表示的策略,其基于當前時隙觀察到的狀態s(t)決定當前時隙的動作a(t)。評價者則為另一個神經網絡,其基于智能體通過環境反饋得到的即時獎勵對當前策略進行評估。對于一個特定的智能體,其行動者和評價者的詳細情況如下

行動者:用θ表示策略參數,π(a|s,θ)為相應策略,表示狀態為s、參數為θ時智能體執行動作a的概率。行動者使用策略梯度上升法對參數θ進行更新。假設策略關于θ可微,則時隙t關于θ的性能梯度計算為

其中,B(t)稱為優勢函數,其指示特定動作帶來的結果與結果平均值之間的差值。?θlnπ(a(t)|s(t),θ)稱為資格跡。由于策略動作a(t)為離散向量,因此,行動者的神經網絡可直接輸出每個動作對應的概率π(a(t)|s(t),θ)。得益于與神經網絡的結合,A3C可采用參數集為θ的神經網絡來學習π(a(t)|s(t),θ)。相應的參數集θ則采用如式(30)的策略梯度上升法更新

其中,g ≥0為行動者神經網絡的學習率。

評價者:評價者采用優勢函數B(t)來評估行動者選擇動作a(t)的優劣。優勢函數B(t)包含一個和狀態s(t)有關的基線函數,而狀態價值函數Vπ(s(t))是該基線函數的最佳選擇。在實際的學習過程中,通常采用狀態價值函數的估計值。因此,評價者的目標是使用另一個參數集為θc的神經網絡來近似估計狀態價值函數Vπ(s(t))≈。優勢函數B(t)可采用如式(32)公式計算

參數集θc采用如式(33)的方式更新

其中,gc ≥0為評價者神經網絡的學習率。在一個時隙中,行動者首先利用其神經網絡輸出當前時隙的策略π(a(t)|s(t),θ),根據該策略選擇動作a(t)并執行,環境返回即時獎勵函數值r(s(t),a(t),s(t+1))給評價者。然后,評價者通過其神經網絡計算估計狀態價值函數V? (s(t),θc)并基于此計算出優勢函數B(t)來評估當前時隙動作a(t)的優劣。隨后,行動者和評價者分別對其神經網絡求關于參數集的導數,并基于優勢函數B(t)來更新相應的參數集θ和θc。

3.2 內層策略

當外層策略確定了信道在集群間的分配后,由于每個集群僅有一個直播終端,因此各個直播終端的信道配對情況已確定,內層策略需要做的則是決定集群內傳感器與信道配對的情況。內層策略可通過設計組合調度策略來實現優化目標,該策略由分配空閑信道的每個集群的鏈路選擇決策組成。在每個可調度的時隙t中,內層策略需選擇使的期望值最大的調度決策組合。然而,由于數據包的傳輸時延可能不止1個時隙,即對于任意終端(n,m)有νn,m(t)≥1,因此,調度決策的執行可能不會立即降低下一個時隙的AoI,直接最大化的期望值不可行。注意到可以利用當前時隙t,νn,m(t)和μn,m(t)計算自時隙t開始完成上行傳輸所需的時隙數ηn,m(t),也就是離相應的AoI下次降低剩余的時隙數ηn,m(t)=νn,m(t)-t+μn,m(t)。為實現本文的優化目標,可將預計降低的AoI設計為與ηn,m(t)相關,假設傳感器(n,m)(m ?=1)經過時隙t的傳輸可將AoI在時隙t+1降低αn,m(t),αn,m(t)可采用如式(34)計算

其中,Δn,m(μn,m(t))為對應數據包傳輸完成后預計可減少的AoI。需要注意的是,如果相應數據包在時隙t沒有完成上行傳輸,則在時隙t+1基站處的AoI實際上并沒有減少,因此,αn,m(t)可看作一個虛擬的AoI減少量?;咎幍腁oI則需在隨后的時隙t+2加上對應的偏置量δn,m(t+1)=αn,m(t)。如果相應數據包在時隙t完成了上行傳輸,則αn,m(t)=Δn,m(μn,m(t))為時隙t+1基站處實際的AoI減少量,偏置量為0。因此,偏置量可采用如式(35)計算

基于上述分析,可構造如式(36)的虛擬隊列

如果傳感器(n,m)(m ?=1)在時隙t占用無線信道進行上行傳輸,對于基站接收數據包的價值等級Fn,m(t),其值在數據包傳輸過程中為0,僅在數據包傳輸完成的時隙μn,m(t)+νn,m(t)-1中才為fn,m(t)。需要注意的是,fn,m(t)在數據包傳輸過程中保持不變,因此,為了評估在相應調度時隙μn,m(t)中的調度策略,可構造一個等效變量從而在時隙μn,m(t)+1提前賦予其數據包的價值等級。該等效變量可采用如式(38)計算

可以看出,當t趨于無窮時,如式(39)成立

由于直播終端與內層策略無關,內層策略在每個時隙t進行決策時需選擇能夠使的值最大的策略組合。此外,由于各集群的鏈路選擇決策相互獨立,因此,對于任意集群n,為了最大化,內層策略可基于以下原則選擇集群內的傳感器m*與相應的空閑信道進行配對

基于以上對內外層策略的分析,每個集群的內層策略需嵌入到外層策略中,從而構成本文所提的雙層調度(Two-layer Scheduling, TS)策略,算法1描述了相應策略的具體步驟。相比直接使用A3C求解問題P3,TS策略將神經網絡對應的可行動作空間大小從(NM)!/(NM-L)!減少到N!N!/(2N-L)!,從而使基于A3C的調度策略能夠對問題P3進行有效的求解。

算法1 求解問題 P3的TS策略

4 仿真結果

仿真設定z=0.5 s,,視頻碼率集合X={2,4,6,8}Mbps,速率集合R={250,300,350,400}Mbps,環境數據包大小集合Y={0.125,0.25,0.375,0.5}MB。環境數據價值等級數F=4,集群數量N=4、信道數量L=6,單位時隙時長b=1ms,概率值,和則通過隨機函數生成。對于A3C智能體,行動者和評價者的神經網絡均為具有3個隱藏層且每個隱藏層神經元數量為128的全連接神經網絡,神經網絡的學習率均為0.000 1,最大的訓練回合數以及單位訓練回合包含的時隙數分別為Tmax=6 000和T? =30。仿真主要將本文的TS策略與其他3種策略進行比較,貪心(Greedy)策略在每個時隙優先調度Δn,m(t)最大的終端。最大比率(Max-Ratio, MR)策略[5]則考慮了上行傳輸時延,在每個時隙優先調度χn(t)和ψn,m(t)中值最大的終端,其中,χn(t)和ψn,m(t)的計算采用如式(41)和式(42)

基于數據價值的最大比率(Max-Ratio with Data Value, MRDV)策略則在MR策略的基礎上進一步考慮了數據價值,在每個時隙優先調度χn(t)中值最大的終端。圖1給出了4種策略下時間平均RDVA分別隨單位集群內終端數量M變化的結果。如圖1所示,本文的TS策略在時間平均的RDVA性能上優于其他3種策略,主要有兩個方面的原因,一方面,TS策略直接優化時間平均的RDVA,因此,相比只考慮了AoI的貪心策略和MR策略其得到的RDVA值更優;另一方面,雖然MRDV策略聯合考慮了數據價值和AoI,然而其沒有考慮到AoI的動態變化特性,因此,其在時間平均的RDVA性能方面不如基于A3C的TS策略。另外,可以看到RDVA的值隨著單位集群內終端數量M的增加而減少,這是由于M的增加對應于單位集群中傳感器數量的增加,而傳感器數量的增加會減少每個傳感器得到調度進行上行傳輸的機會。

圖1 單位集群內終端數量對時間平均RDVA的影響

對于數據價值和AoI的性能曲線,圖2和圖3給出相應性能隨單位集群內終端數量M變化的結果。圖2給出了時間平均的數據價值隨M變化的結果。如圖2所示,由于貪心策略和MR策略沒有考慮系統的數據價值,因此其在數據價值方面類似于隨機決策,所得到的時間平均數據價值在4種策略中也是最低的。對于MRDV策略,雖然其考慮了數據價值,然而AoI的動態變化會影響相應的調度決策從而影響接收數據價值的動態變化,因此,相比TS策略,MRDV策略則由于未考慮這種動態變化帶來的影響而得到了較低的時間平均數據價值。另一方面,圖3給出了時間平均AoI隨單位集群內終端數量M變化的結果??梢钥闯?,4種策略中TS策略能達到最優的時間平均AoI。貪心策略雖然考慮了預計數據傳輸完成能夠減少的AoI,但忽略了數據本身傳輸時延對AoI的影響,因此,其在AoI方面的性能最低。MR策略和MRDV策略則是由于沒有考慮AoI動態變化的影響,因此,其得到的時間平均AoI性能低于基于深度強化學習的TS策略。

圖2 單位集群內終端數量對時間平均數據價值的影響

5 結論

針對視頻直播較少考慮AoI以及AoI的研究中數據價值考慮不足的問題,本文基于直播終端和無線傳感器共同部署的視頻直播系統研究了數據價值和AoI的聯合優化問題??紤]到AoI的動態變化特性以及問題的有效求解,提出了一種基于A3C的雙層調度策略,仿真結果表明,與其他策略相比,本文提出的調度策略可以降低時間平均的AoI并提高時間平均的接收數據價值。

猜你喜歡
時隙數據包信道
復用段單節點失效造成業務時隙錯連處理
SmartSniff
一種高速通信系統動態時隙分配設計
時隙寬度約束下網絡零售配送時隙定價研究
基于導頻的OFDM信道估計技術
一種改進的基于DFT-MMSE的信道估計方法
基于MED信道選擇和虛擬嵌入塊的YASS改進算法
基于TDMA的無沖突動態時隙分配算法
一種基于GPU的數字信道化處理方法
視覺注意的數據包優先級排序策略研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合