?

基于Q學習的多目標分時段路口交通控制

2016-04-07 22:05張辰

電腦知識與技術 2016年3期

關鍵詞：多目標

張辰

摘摘要：針對路口堵塞，提出了一種基于Q學習算法的多目標分時段路口信號燈控制方法。該方法在多個單路口交通性能評價指標的基礎上，考慮了不同時段所具有的不同流量特征，從而設計了一套混合型的綜合信號燈控制策略。最后在VISSIM上對本策略進行了仿真實驗，驗證了有效性。

關鍵詞： Q學習；多目標；分時段；交通控制

中圖分類號：TP393.08 文獻標識碼：A 文章編號：1009-3044（2016）03-0291-02

1 引言

當今，汽車已經成為人們出行的主要手段。然而，汽車的普及與城市路口建設的局限性，使得如何有效地管理交通成為了一個非常重要的課題。為了做好路口的交通控制問題，國內外許多專家都對此進行了大量的研究，近年來，交通控制理論越來越成熟。在路口控制問題上，提出了很多不同的性能評價指標，并且從這些基本指標出發，逐漸從對單一目標的優化發展到對多目標的優化。但是后者存在一個問題，就是多目標之間可能會有沖突，從而無法左右兼顧，達到最理想的情況。為了解決這個問題，研究人員采用了諸如遺傳算法，模糊偏好，粒子群等多種算法，并由此產生了一套日趨完善的多目標優化理論。同時，交通控制方法已經從傳統的理論發展到與人工智能，神經網絡，自學習等結合起來應用，并且產生了大量實際有效的成果[1]。其中，強化學習算法（Reinforcement Learning， RL）被認為是一種利用自學習來解決交通控制的非常有效的方法。而Q學習[2]則是強化算法中非常具有代表性的一種算法，對于其在路口交通控制中的應用也已經有了一定的研究歷史。

本文在國內外已經取得成果的基礎上[3]，結合Q學習算法，提出了一種多目標，多時段的混合控制策略。該策略考慮了不同交通狀況和時段下，人們所著重的優化目標也會不同，因此需要根據實際情況，自動權衡，修正各目標之間的權重關系。接著利用Q學習算法，將混合策略應用到信號燈的控制上，使得控制具有自適應的特點。最后與傳統的策略[4][5]進行比較，證明了本混合策略的顯著的優化效果。

2 基于Q學習的控制策略

本文提出的方法是一種多目標，多時段的混合控制策略。本策略由主要有兩個方面：多目標，多時段。

對于多目標來說，本文具體分析了各個路口性能評價指標的意義，并選取了幾個具有較好代表性的指標來作為優化目標。在策略中，我們采取線性組合的方式，將幾個目標組合在一起。每一個目標之間通過權重來確定其對整個優化函數所做的貢獻，從而達到最優化的操作。

對于多時段來說，在交通控制中，評價指標如何選取與當前交通流的具體情況有著密切的聯系。隨著路口交通堵塞情況的變化，優化目標之間的權重也應該有所改變。

2.1 參數設計

本策略采用了如下多目標參數：

通行能力（Capacity）

通行能力是指在其余條件不變的情況下，在單位時間內，通過交叉口的最大車輛數。通行能力在一定程度上可以反映交通情況是否暢通，以及暢通的程度。

延誤時間（delay time）

延誤時間是指，當一輛車從進入交叉口道路一直到離開，由于交叉口不暢通所導致的額外的行駛時間。延誤時間一般由停車時間和因為擁堵而導致的緩慢行駛所浪費的時間組成。

飽和度（saturation degree）：

飽和度是指，路口中入口方向的到達車流與通行能力的比值。

2.2 Q學習參數設計State

在單交叉口中，由一個Agent負責感知和接收當前路口的環境參數值。在本算法中，我們考慮了以下幾個常用參數：

1. 當前相位的編號。

2. 當前相位中，紅燈方向的排隊長度和。

3. 當前相位中，綠燈方向的車流數量和。

Action

采用（保持/切換）的兩種行為組成的集合。相對前者來說，后者不僅簡單，適合可變周期，其只有兩個值的優點更使得在與state進行結合配對時，狀態空間呈指數級的減小，從而在一定程度上加快了Agent的響應速度。

Reward

定義回報函數為兩個相鄰時段的交通性能值的差。

3 實驗結果分析

實驗在VISSIM上仿真了一個主要交通路口。路口信息為：4方向，每個方向3條車道（進車道，直行/右轉出車道，左轉出車道）

這是中度擁堵的情況下，自適應策略的相對百分比評價指數提升。在中度擁堵的情況下，三個指標的提升相對來說比較平均，基本都圍繞8%的水平。在中度擁堵的情況下，策略對平均停車次數具有強烈的偏好性（0.8），對通行能力具有次級偏好（0.2），因此，策略在執行過程中以這兩個為目標進行優化。相對于重度和輕度兩種情況來說，停車次數指標在中度擁堵情況中得到了最好的提升，而通行能力的提升水平也是比較高的。

4 結論

本文提出了一種分時段，多目標混合交通控制策略，設計將分時段與多目標進行結合，并應用到路口控制中，可以最大限度，最廣面積的考慮到路口的復雜的需求。通過Q學習實現了該策略，展示了以Q學習為代表的RL算法在交通路口控制中的可行性和所具有的優勢。使用Q學習算法，路口的性能評價得到了顯著有效地提升。結果顯示了Q學習在復雜多變的路口交通情況中，與傳統的通過建立固定模型進行控制的方法，具有更大的靈活性和自適應性。

參考文獻：

[1] 盧凱.交通信號協調控制基礎理論與關鍵技術研究[D].華南理工大學，2010：46-48.

[2] Watkins P Dayan. Q-learning. Machine Learning， 1992， 8（3）： 279-292 .

[3] 徐建閩.交通管理與控制[M]. 北京：人民交通出版社，2007：139-140.

[4] Waltz M D，Fu K S. A Heuristic Approach to Reinforcement Learning Control System[J].IEEE Transaction on Automatic Control， 1965， 10（4）：390-398.

[5] Siagh S P. Reinforcement Learning with Replacing Eligibility Traces[J].Machine Learning， 1996， 22： 159-195.

猜你喜歡

汽車底盤集成控制最新技術探討

科技創新與應用(2017年3期)2017-02-18

基于生態流量區間的多目標水庫生態調度模型及應用

南水北調與水利科技(2016年5期)2016-12-27

基于和差單脈沖天線的多目標分辨算法

航空兵器(2016年5期)2016-12-10

基于多目標的土木工程專業科研創新人才培養模式探索

大學教育(2016年7期)2016-07-27

電腦知識與技術2016年3期

電腦知識與技術的其它文章: 一種基于壓縮感知的農業WSN數據傳輸方法; 一種高速交叉通道數據鏈路的設計研究; 對計算機分析處理技術中的數據分析的探析; 信息管理中計算機數據庫技術的應用分析; Hibernate數據持久化方法應用研究; RFID技術在智能超市手機客戶端中的應用

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合