?

基于Q-Learning算法的能量獲取傳感網絡自適應監測能效優化方法

2022-12-18 07:19卞佩倫包學才譚文群康忠祥
南昌工程學院學報 2022年4期
關鍵詞:能效傳感能量

卞佩倫,包學才,譚文群,康忠祥

(南昌工程學院 1.信息工程學院;2.江西省水信息協同感知與智能處理重點實驗室,江西 南昌 330099)

生態環境監測是生態文明建設的基礎,當前圖像監測已成為促進治理生態環境的重要技術手段。但由于圖像監測的能量消耗大,傳統基于有限容量電池供電的監測傳感網絡時常造成圖像監測中斷,而對于偏遠地區,頻繁更換電池人工成本高且不切實際,如何解決偏遠地區持續性圖像監測是目前需要解決的重要問題之一。近年來,基于外部獲取能量(如太陽能、風能等)的能量獲取傳感網絡技術為偏遠地區圖像監測提供了解決方案。然而,太陽能獲取隨氣候環境變化,能量到達具有一定的隨機動態特性,導致傳統基于固定電池供電的傳感網絡優化方法不適用于能量獲取傳感網絡。因此,提出有效的能量獲取傳感網絡自適應能量管理技術對解決偏遠地區持續性圖像監測具有重要作用和意義。

目前,國內外許多學者針對上述能效優化問題提出了許多創新的解決方案。文獻[1]以最小化非目標接收基站的平均旁瓣幅值為優化目標,提出了基于改進蟻群算法的圖像壓縮傳輸波束成形節點選擇算法,提出算法中的啟發函數不僅考慮到獲取能量和圖像壓縮中的傳輸能量,而且在信息素更新公式中也結合剩余能量和非目標接收基站的平均旁瓣性能,從而進一步改善傳感網絡中圖像監測與壓縮傳輸中的能效性能。文獻[2]在各類經典路由協議的基礎上,綜合考慮到節點的密集程度以及能量平衡等因素,提出了一種基于能量供給的分簇單跳路由協議,旨在平衡傳感網絡中的能量消耗,從而延長網絡的壽命。文獻[3]提出的REC算法通過采用動態分區的方法來降低重新成簇所造成的能量損耗,從而提升數據傳輸效率和網絡生存周期。文獻[4]基于網絡節點的角色劃分,采用了一種多跳分層路由方案來平衡每個節點的能耗以傳輸圖像。而文獻[5]從網絡擁塞的角度出發,考慮到簇頭節點的最大利用率,提出了一種基于簇結構的路由協議,通過平衡每個簇的節點數量,從而減少網絡中可能出現的擁塞并降低能耗。除卻路由協議自身的創新,越來越多的研究人員在開始采用強化學習來優化傳感節點的能量管理,并基于仿真實現了一定的結果。文獻[6]采用由電池供電的傳感器來指導強化學習系統采取相關操作,其方案運用基于固定策略的SARSA算法研究天氣、電池退化和硬件對系統的影響。文獻[7]和文獻[8]則是將強化學習用于維持永久運行并滿足能量收集型傳感器的吞吐量需求。文獻[9]采用強化學習來優化能量收集節點的采樣工作,但是,這一算法是針對室內環境下構建和測試的,該環境在一天中的光照強度基本保持一致且富有規律性。文獻[10]則是基于5個傳感器節點在5 d內收集的數據來優化能效,但是,其設計的獎勵函數不取決于電池電量或消耗的能量,因此無法捕獲實際情況。文獻[11]提出了RLMAN系統,該系統采用了具有線性函數逼近作用的actor-critic算法,并使用現有的室內和室外光照數據進行模擬,但并未說明其內存和計算要求。

由上述研究分析可知,當前研究主要針對無線傳感網絡中節點的能量管理問題,提出了各類能效優化方案和路由改進協議,但在環境模擬方面,還存在一定的局限性,主要體現在兩個方面:一是對太陽能獲取量白天晝夜交替考慮不足,忽略夜間的太陽能獲取量幾乎為零情況。二是對于連續長時間陰雨天氣情況的優化性能也沒有進行系統研究和分析,對保證持續有效的監測還需進一步分析。

為此,針對偏遠地區的水生態環境圖像監測需求,即晝夜以及連續長時間陰雨天氣期間的持續有效監測,利用強化學習中的Q-Learning算法,設計有效獎勵函數,力圖提出針對不同季節不同氣候環境下的能量獲取傳感網絡自適應監測能效優化方法,方法基于時間差分預測,不僅實現學習速度更快,而且能快速尋找最優策略和最優動作值函數,從而實現監測的持續有效性和穩定性。

1 相關模型及問題描述

1.1 網絡模型

目前傳感網絡主要以網狀結構和簇結構模型為主,對于偏遠區域水環境圖像監測,監測區域需要內各節點之間的協同完成監測任務的特點,相比之下,基于簇的網絡拓撲結構更適合區域多節點的管理和協作。因此,本文采用基于簇結構模型進行監測和傳輸建模。如圖1所示,監測節點對周圍水環境進行圖像監測并將圖片傳輸給周圍的普通節點。之后,普通節點將監測圖像進行壓縮處理并傳輸給簇頭節點。最后,簇頭節點將收集到的壓縮圖像發送給基站,由基站進行評估與處理,性能評估主要基于3項指標,分別是平均效用、中斷率以及能量溢出率,其中平均效用以長期的平均獎勵值來近似表示。

圖1 網絡模型

1.2 能量消耗模型

結合文獻[12]提出的傳感網絡能量模型描述可知,傳感節點監測與傳輸能量消耗主要由監測一次能耗、監測頻率以及傳輸能耗等組成,具體如下所示:

EC=EM+ET,

(1)

EM=Em*Ms*Tm,

(2)

ET=ED*l.

(3)

式(1)中EC表示監測與傳輸的總能耗,EM表示監測能耗,ET表示傳輸能耗。式(2)基于文獻[13]提出的能耗模型做出更改,其中Em代表節點每次監測所消耗的能量,為固定值,Ms表示每個時隙的監測次數,Tm代表監測所需的總時隙。所以,環境監測的總能耗基本與監測頻率成正比,隨著監測頻率的提高,傳感節點的能耗也會隨之增大。而式(3)的傳輸能耗參考文獻[14]和文獻[15]提出的一階無線通信模型,ED表示傳輸每比特數據所消耗的能量,l為比特數。而本文著重研究傳感節點的監測優化,故總能耗近似為監測能耗。

1.3 能量獲取模型

在本研究中,監測節點供電模塊由蓄電池和太陽能電池板組成,節點可以根據這些太陽能板來獲取能量為蓄電池充電,蓄電池通過能量管理芯片為監測節點提供能量。太陽能能量獲取模型采用基于文獻[15]提出的能量到達模型,如下式(4)所示:

EH=PS*SI*TS,

(4)

式中EH、PS分別表示獲取的總能量和太陽能發電量,SI表示光照強度,TS表示持續時間。根據SANIO公司生產的太陽能電池板數據顯示,發電量PS為0.23 μW/lux,則100 lux的光照持續600 s所產生的能量為13.8 MJ。所以,獲取能量的多少主要取決于當前時間段的光照強度。

除此之外,能量獲取與季節變換也存在一定聯系。圖2展示了南昌市太陽輻射強度的監測數據,假設3-5月代表春季,6-8月代表夏季,依此類推。則如圖2所示,夏季的太陽輻射強度最高,即相對獲取的能量最多,春秋兩季近似,而冬季的太陽輻射強度最低,相對獲取的能量也最少。

圖2 太陽輻射強度監測數據

1.4 優化模型

本文在建立網絡模型和能量模型的工作上,綜合考慮了節點協作和能量均衡等因素,目的是為了改進不同季節不同氣候環境下無線傳感網絡持續性長期監測的能量管理問題。但是,現階段部分優化方案往往著重于改善當前時刻或時隙的能量優化管理,忽略傳感網絡的長期能效。因此,針對上述問題,本文提出了如式(5)~(9)所示的優化模型。

(5)

s.t.EH+ER-EC≤Ebc,

(6)

EH≥0,

(7)

0≤ER≤Ebc,

(8)

0≤EC≤ER.

(9)

式(5)表示優化目標為最大化一段時間內的累積獎勵值,其中ri表示節點在時隙i時間段內監測所獲得的即時獎勵值;約束條件式(6)為節點獲取能量與剩余能量的總和再減去監測能耗不超過當前節點的總電池容量,其中,EH表示節點的獲取能量,ER表示節點當前剩余能量,EC表示節點圖像監測一次的能耗,Ebc表示節點的總電池容量。

由上述優化問題可知,每個時隙的能量獲取是隨機動態到達,且優化目標是要T個時隙的長期效用,傳統最優化方法難以解決此優化問題。但從現有文獻[9]和[16]可知,目前強化學習中Q-Learning算法在解決長期效用方面取得很好效果。為此,在本研究中,將采用Q-Learning算法對能量獲取條件下傳感節點持續性監測的長期效用進行建模優化,進而實現晝夜以及長時間陰雨環境下的網絡節點長期能效性能的同時,延長了整個網絡的壽命。

2 基于Q-Learning算法的自適應監測能效優化方法

2.1 Q-Learning 算法原理

在一個典型的強化學習問題中,一個智能體開始處于一種狀態s,通過選擇一個動作a,它會收到即時獎勵r并轉移到一個新的狀態s’,這一過程稱為一個經驗軌跡。不斷循環此過程,直到在有限時間內達到最終狀態。智能體在每種狀態下選擇動作的方式稱為其策略π,如式(10)所示。智能體的目標就是基于經驗軌跡學到的數據找到最優策略,以最大化長期獎勵R。

(10)

對于每個給定的狀態s和動作a,定義一個函數Qπ(s,a)稱為動作值函數,該函數返回從狀態s開始,采取動作a然后遵循給定的策略π直到最終狀態所獲得的累積獎勵的估計值,如式(11)所示:

Qπ(s,a)=r0+γr1+γ2r2+γ3r3…,

(11)

其中γ≤1被稱為折扣因子,它定義了未來獎勵的重要性。值為0意味著只考慮短期獎勵,值為1則更重視長期獎勵。

由于Q-Learning算法是基于時間差分預測的強化學習算法,通過貝爾曼方程的遞推重寫以及時間差分預測的更新公式,就可以得到Q-Learning算法的更新公式,即整個算法的核心,如式(12)所示:

newQ(s,a)←Q(s,a)+α[r+γmaxQ′(s′,a′)-Q(s,a)].

(12)

從式(12)可以看出,除折扣因子γ外,Q-Learning算法還有一個重要的參數,即學習率α,它定義了一個舊的Q值將從新的Q值那里學到的新知識占自身的比重關系。值為0意味著代理不會學到任何東西,值為1意味著新發現的信息是更為重要的信息。

除此之外,本方案采用的Q-Learning算法遵循ε-貪婪策略,如式(13)所示:

(13)

該策略的具體含義就是以ε的概率選擇隨機動作,否則以1-ε的概率在一定范圍內選擇使Q值最大的動作。

2.2 基于Q-Learning算法自適應監測能效優化方法

為解決監測能效優化問題,建立了基于Q-Learning算法的優化框架圖(如圖3所示)。圖3中傳感器節點通過太陽能電池板收集能量,然后對周圍水環境進行圖像監測并將相應數據發送到基站?;净谠O計Q-Learning算法優化策略,并根據節點所反饋的狀態、環境等數據確定之后的監測頻率,具體優化過程闡述如下:

圖3 基于Q-Learning算法的通信框圖

智能體:本方案中,智能體是負責與傳感器節點通信的基站程序,它通過收集傳感器節點監測到的圖像數據,并向其輸出相應的監測頻率以此不斷獲取獎勵并更新Q值表。

環境:本方案中的環境相當于與外部真實環境進行交互的傳感器本身。其發送的數據主要包括光照強度(即獲取到的能量)、天氣、季節等。

狀態:本方案中,狀態設定為節點當前的剩余能量。這里對傳感節點的最大儲能進行離散化處理并由高到低依次縮放為N個能量單元,節點在每個時隙內進行一次監測就會消耗1個能量單元,當狀態降至0時,傳感節點的能量耗盡。離散化的作用在于減少了狀態、動作空間,因此可以減少Q-Learning算法的收斂時間。

動作:傳感器節點在每個時隙的時間段內都會進行一定次數的環境監測。因此,本文將每個時隙中的監測次數設置成相應的動作。假定共有A個動作,即{0,1,2,…,n,…,A-1},其中0表示節點進入休眠,n表示節點每個時隙監測n次。對于每個反饋到的動作指令,傳感器會分配時隙供節點進行對應次數的環境監測,并且每次監測均會消耗1個能量單元。例如,動作2對應每個時隙的時間段內監測2次,即當前時隙內共消耗2個能量單元。

獎勵:本方案中獎勵函數的設定需要從兩方面進行考慮:一是最大化傳感器節點的動作選擇,即通過盡可能提升每個時隙內的監測次數從而提高長期效用;二是最小化節點狀態為0的情況,即盡量避免出現節點能量耗盡的情況來保證傳感網絡的正常工作。獎勵函數的設置能夠更好地優化節點的動作決策,而由2.3節可知,不同環境下的能量獲取有所不同,節點的動作選擇也會有一定區別,所以需要獎勵函數對不同環境下的動作決策進行調節。本方案基于文獻[16]提出的三段式能量管理策略對節點狀態進行劃分,用sigmoid曲線函數和墨西哥帽子曲線來定性地表示白天和夜晚兩種環境下的獎勵函數,并針對不同范圍的能量狀態設置了對應的獎勵函數,以便節點做出最優選擇。具體如式(14)~(16)所示:

(14)

(15)

(16)

式中a表示動作;s表示節點狀態,即當前剩余能量;c和b分別代表對函數幅度和斜率的控制,參考文獻[16],這里分別取2和1;EH表示節點的獲取能量;Ebc表示節點的總電池容量;rc和rs都表示智能體在白天所獲得的即時獎勵值,其中,rc表示陰雨環境下所獲得的即時獎勵值,智能體會根據獲取能量、剩余能量的占比等信息來獲得不同大小的獎勵值;rs表示晴天環境下所獲得的即時獎勵值,智能體所收到的獎勵值大小主要依賴于獲取能量以及動作等因素。而rn則表示夜晚環境下所獲得的即時獎勵值,評判標準僅依靠所選擇的動作大小,動作越大,智能體最后得到的獎勵值會相應降低,節點會收到負向反饋以節約能量。而當節點的狀態s為0時,為了后期減少節點出現能量耗盡的狀況,故還需要設置懲罰函數以協助節點對3種不同環境下的動作決策進行約束。式中rmax表示當前環境下最大的即時獎勵值,因為懲罰函數的設定應該使得當前環境下,每個時隙內最大化監測次數所獲得的即時獎勵不超過監測中斷所帶來的損害。

根據上述優化過程以及設計獎勵函數,設計了基于Q-Learning的自適應持續監測優化方法,步驟如下:

Step1:初始化Q值表為0,同時設置初始化狀態s、動作a、即時獎勵r、獲取能量EH、總電池容量Ebc、季節W、氣候C、時間T、折扣因子γ、學習率α、經驗軌跡等相關參數。

Step2:設置貪婪系數ε∈(0.1,1),引用式(14),傳感節點會遵循貪婪策略選擇動作a。由于ε是處于0.1~1之間的參數,若初始化為1,該算法會在學習階段選擇隨機動作;若初始化為0.1,其會更傾向于選擇使得Q值最大的動作序列。

Step3:節點依據學習到的策略和自身的狀態s在時間T內與環境進行交互。其中,白天和夜晚均會分配一定數量的時隙供節點進行監測。且每當晝夜交替時,氣候C會依據當前季節W下的氣候分布規律按照一定概率在晴天和陰雨天之間進行切換。具體操作如下:

若檢測到當前環境為白天且自身狀態s>0,首先判斷所處氣候,若C=1,即陰雨天,節點會選擇某一動作a消耗對應能量得到下一狀態s′,并根據式(14)收到即時獎勵rc。若C=2,即晴天,節點則需要根據式(15)以獲取即時獎勵rs。

若檢測到當前環境為夜晚且自身狀態s>0,引用式(16),在選擇完某一動作a消耗能量后得到下一狀態s′和即時獎勵rn。

若判斷當前狀態s=0,節點會強制進入休眠并受到懲罰,即時獎勵r=-rmax。

Step4:引用式(12),利用交互得到的即時獎勵r和新的節點狀態s′對Q值表進行更新。其中,r+γmaxQ′(s′,a′)是采取動作a后得到的即時獎勵r加上通過選擇具有最高Q值的動作獲得的獎勵,而Q(s,a)是當前Q值表中狀態動作對的值,它們之間的差值由學習因子α縮放。

Step5:能量獲取。節點依據能量獲取模型從環境獲得能量EH,結合當前狀態s′相加得到新的狀態s″。

Step6:當前經驗軌跡在時間到達最大值T后結束。新的經驗軌跡中,節點初始狀態s被賦予上一軌跡的最終狀態s″。若經驗軌跡未到達閾值,跳轉至step2;反之算法結束。

3 仿真及性能評估

3.1 仿真環境及模型配置

為了驗證基于Q-Learning的自適應監測能效優化算法的性能,本文從陰雨以及晝夜等環境下進行分析。由于目前針對陰雨以及晝夜交替環境下的長期持續性自適應算法較少,為驗證提出算法能有效改善目前監測能效和提升監測持續性,下面將提出方法與傳統監測節點隨機選取監測次數方法(Random方法)以及基于文獻[17]提到的貪婪算法的最大化監測次數方法(Greedy方法)進行比較。對比均基于相同能量收集的情況下進行,且分別從3個方面評判提出方法與其余兩種方法的性能:平均效用、中斷率和溢出率。

同時,本次實驗基于python3.0仿真環境來評估整套方案??紤]到算法的收斂速度以及仿真結果的展示,在仿真之前需要對狀態、動作以及能量獲取進行離散化設置。首先將節點狀態s設定為0~72共73個能量單元,即電池總容量Ebc;動作a設定為0~3共4個動作,即節點每個時隙監測0~3次;每個時隙設定為1 h,且系統會在白天和夜晚平均分配共16個時隙供節點進行監測。而在能量獲取方面,由于晴天的實際室外光照強度較大,故所獲取的能量區間EH為3~6個能量單元;陰雨天的實際室外光照強度較小,故所獲取的能量區間EH為0~2個能量單元;而夜晚幾乎沒有光照,故所獲取的能量單元EH設置為0。最后,表1列出了本次仿真所需要的其他相關參數。

表1 仿真參數設置

下面將結合陰雨環境和晝夜交替環境對3種算法的性能進行對比分析,具體如下。

3.2 綜合對比與結果分析

按照上述仿真環境,模擬陰雨天氣以及晝夜交替的環境特點,研究基于Q-Learning的能效優化算法配置下的傳感節點在陰雨天氣占比不同的情況下其狀態和動作變化過程,并結合其他算法分析其性能優勢。其中,為了著重研究惡劣天氣下的算法性能,故不會出現陰雨天氣占比較低的情況。

3.2.1 陰雨天氣占比70%情況下基于Q-Learning的能效優化算法性能及對比分析

在陰雨天氣占比約70%的情況下,圖4是基于Q-Learning的能效優化算法經過15 d的節點狀態-動作仿真圖,季節設置為雨季分布更為密集的春季。如圖4所示,圖中的3類曲線分別代表離散化后的獲取能量EH、節點狀態s和動作a這3項要素。在這15 d時間里,由于大概率陰雨環境下能量獲取相對匱乏,傳感節點在動作的選擇方面需要考慮到最大化節點長期效用與最小化能量耗盡情況的總體目標。所以在初期,節點剩余能量充足,傾向于選擇高能耗動作以獲取更高的獎勵值。隨著天數遞增,剩余能量逐漸減少,節點會根據獎勵函數的反饋來優化自身的動作選擇,在保證白天能夠穩定工作的情況下盡可能減小監測次數以避免能量耗盡,從而使得夜晚環境下節點依然擁有充足的能量來維持環境監測,剩余能量匱乏的情況也會得到相應改善,說明了基于Q-Learning的算法在提升節點的長期效用的同時也有利于維持節點的長期生存。

圖4 混合環境下的節點狀態-動作圖(15 d)

為了進一步驗證基于Q-Learning的能效優化算法在平均效用、中斷率以及溢出率三方面的性能表現,故基于相同環境并結合上一節提到的兩種方法進行對比,結果如圖4所示??倳r間設置為150 d,每15 d計算并統計10次數值取平均。

圖5 三種算法的性能指標對比(混合環境)

首先,在平均效用方面,由于Q-Learning擅長考慮序列問題和長期回報,從而提升節點長期效用。所以,如圖5(a)所示,基于Q-Learning的能效優化算法配置下的節點效用能夠大幅度領先其余兩種方法,并一直穩定在0.8左右。其次,在中斷率方面,由于Q-Learning對環境具有強大的適應能力,能夠及時調整節點的工作模式。所以,在保證可用能量足夠的情況下,如圖5(b)所示,優化后的節點中斷率對比其余兩種方法有明顯的降低,并一直穩定于5%以下,這說明基于Q-Learning的能效優化算法能夠有效延長傳感網絡的生命周期。最后,在溢出率方面,從圖5(c)可以看出,由于Greedy方法擅長最大化監測次數來提升短期效用,所以節點幾乎不會出現剩余能量溢出的情況。而本文提出的方案在保證節點能量耗盡的前提下,同樣能夠自適應調整動作能級來消耗多余的可用能量。

圖6 混合環境下的節點狀態-動作圖(15 d)

3.2.2 陰雨天氣占比50%情況下基于Q-Learning的能效優化算法性能及對比分析

在陰雨天氣占比約50%的情況下,圖6是基于Q-Learning的能效優化算法經過15 d的節點狀態-動作仿真圖,季節設置為雨季分布相對平均的夏季。如圖6所示,當晴天與陰雨天氣下逐漸持平時,節點的能量獲取會相應得到改善,傳感節點在動作的選擇對比上一節會更加靈活,在總體保持低能耗監測的基礎上,會更傾向于選擇較高能耗的動作以獲得更多獎勵值。除此之外,節點進入休眠狀態的次數對比上一節也明顯降低,其剩余能量水平也一直較為充足,同樣驗證了基于Q-Learning的能效優化算法能夠有效維持傳感網絡的持續監測和長期生存。

為了進一步驗證在陰雨天氣占比約50%的環境下,基于Q-Learning的能效優化算法在平均效用、中斷率以及溢出率三方面的性能表現。同樣地,結合之前提到的兩種方法進行對比,結果如圖7所示。

圖7 三種算法的性能指標對比(混合環境)

首先,在平均效用方面,如圖7(a)所示,本方案優化后的節點效用依然能夠在一定程度上領先其余兩種方法,并于1.2上下浮動。其次,在中斷率方面,由于仿真環境發生變化,可用能量相對充足,如圖7(b)所示,優化后的節點中斷率幾乎為0,只會偶爾出現監測中斷的情況。最后,在溢出率方面,與之前相似,基于Q-Learning的能效優化算法能夠通過自適應調節動作能級以規避長時間能量溢出的情況。

綜合來看,仿真實驗分別從平均效用、中斷率與能量溢出這三個方面對提出的方案和另外兩種方法進行對比,從仿真結果可以看出,本方案基于Q-Learning算法能夠有效適應復雜多變的環境,從而調整節點的動作決策,平衡節點能效,在滿足能量最大化利用的同時顯著延長了網絡的生命周期,保證了太陽能獲取傳感網絡的可持續運行。

4 結束語

實現水環境圖像持續性監測是偏遠地區迫切需求解決的關鍵問題,也是實現生態環境保護的基礎。本文提出了一種基于Q-Learning算法的能量獲取傳感網絡自適應監測能效優化方案,該方案在簇結構網絡的基礎上結合Q-Learning算法,利用獲取到的能量特性來自適應調整節點的圖像監測頻率。通過設置大概率陰雨環境和晝夜交替結合下的混合監測環境,對提出方法進行驗證對比分析,仿真結果表明基于Q-Learning算法配置的節點學會了如何適應變化的天氣和日夜交替環境下的自適應監測,對通過與隨機選取監測頻率和基于貪婪算法的最大化監測頻率兩種策略的對比分析,在平均效用、中斷率以及能量溢出率等方面,提出方法性能均優于后兩種策略。特別在晝夜交替的環境下,考慮到陰雨天氣和夜晚環境下光照匱乏,對比另外兩種策略,能夠大幅減少監測中斷率,且保證傳感節點長期生存。

猜你喜歡
能效傳感能量
《傳感技術學報》期刊征訂
新型無酶便攜式傳感平臺 兩秒內測出果蔬農藥殘留
淺論執法中隊如何在洪災中發揮能效
高效電動機能效檢測關鍵問題分析
正能量
“能效之星”產品目錄(2018)
硅硼摻雜碳點的制備及其在血紅蛋白傳感中的應用
微生物燃料電池在傳感分析中的應用及研究進展
詩無邪傳遞正能量
開年就要正能量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合