?

基于多智能體深度強化學習的大規模交通信號燈控制模型研究

2022-08-12 09:30
工業儀表與自動化裝置 2022年4期
關鍵詞:信號燈路段動態

陳 驍

(陜西交通職業技術學院,陜西 西安 710018)

0 引言

隨著我國經濟社會的快速發展,我國的汽車保有量持續快速增長,交通擁擠問題顯得越發嚴峻,特別是在高度動態的復雜十字路段[1],進一步加劇了交通資源浪費及環境污染,一定程度上增加了交通事故發生的概率,開展高度動態復雜路段交通疏導需求下的大規模交通信號燈協同控制模式研究具有重要的理論和實踐價值[2]。目前主流應用的交通信號燈控制模型主要包括基于最優觸發算法和基于最長隊列優先配時算法等,但在高度動態復雜路段交通疏導實踐中逐漸顯露出緩解交通擁堵的效率較低、無法實現與動態環境實時交互、解決交叉路口擁堵問題時失效等諸多不足[3],開展具備與環境實時交互功能的新型大規模交通信號燈協同控制模式成為當務之急。伴隨著我國交通路況的動態復雜性加大,交通信號燈的規模也越來越大,對高度動態復雜路段交通運行態勢自主感知的依賴性越來越強,大規模交通信號燈協同控制內部邏輯規模呈指數增長,由于內部邏輯混亂或者外部條件突變觸發故障發生的概率大大提高,大規模交通信號燈協同控制核心進程一旦發生故障[4],往往造成重大的損失。提出了一種基于多智能體深度強化學習的大規模交通信號燈控制模型,選擇西安市某高度動態復雜路段交通疏導為工程實踐分析載體,開展了大規模交通信號燈協同控制模型工程應用實踐驗證,基于交通及市政部門現有的軟硬件設備,輔以高清CCD矩陣群,搭建了模型仿真驗證環境,從定性與定量兩個層面對模型開展了典型需求場景下的仿真驗證及應用實踐定量分析,多維度驗證了模型的可行性及優越性。

1 大規模交通信號燈控制模型架構設計

以基于多智能體深度強化學習的大規模交通信號燈控制模型典型需求為控制流頂層設計指導,著重改善基于最長隊列優先配時算法的大規模交通信號燈協同控制模式在高度動態復雜路段交通疏導實踐中顯露的諸多不足,把大規模交通信號燈協同控制模型完整控制流邏輯進行目標導向下的任務分解[5],著重關注高度動態復雜路段交通運行態勢經驗池構建、大規模交通信號燈與多智能體之間的物理映射、復雜路段大規模交通信號燈最優協同控制等三個耦合子架構,構建了基于多智能體深度強化學習的大規模交通信號燈控制模型體系架構,具體如圖1所示。其中,高度動態復雜路段交通運行態勢經驗池構建子架構主要完成目標高度動態復雜路段交通疏導態勢的采集與池化處理[6],對數據池進行學習集和應用集分區劃分,為大規模交通信號燈與多智能體之間的物理映射構建提供統一的數據集支撐;大規模交通信號燈與多智能體之間的物理映射構建子架構主要利用深度長短期神經網絡對態勢經驗池進行高度動態復雜路段較長周期內的大規模交通信號燈協同控制收益產出進行預測,建立時間正序下的大規模交通信號燈與多智能體之間的物理映射關系;復雜路段大規模交通信號燈最優協同控制子架構主要利用深度確定性策略梯度算法構建大規模交通信號燈協同控制與交通疏導效率之間的耦合模型,實現復雜路段大規模交通信號燈最優協同控制。

圖1 大規模交通信號燈控制模型架構示意圖

2 大規模交通信號燈控制模型核心算法設計

基于大規模交通信號燈控制模型邏輯架構,分階段對基于多智能體深度強化學習的大規模交通信號燈控制模型核心算法進行設計,首先給出大規模交通信號燈協同控制收益產出預測子算法,然后給出復雜路段大規模交通信號燈最優協同控制子算法,最后給出模型典型需求場景下的仿真驗證,詳細給出基于多智能體深度強化學習的大規模交通信號燈控制模型定量化實現過程,為工程化效能分析提供理論支撐。

2.1 大規模交通信號燈協同控制收益產出預測子算法

(1)

(2)

(3)

2.2 復雜路段大規模交通信號燈最優協同控制子算法

利用高清CCD矩陣搭建高度動態復雜路段交通運行態勢快速獲取裝置,形成融合經驗學習集和實踐應用集的高度動態復雜路段交通運行態勢經驗池。利用深度確定性策略梯度算法構建大規模交通信號燈協同控制與交通疏導效率之間的耦合模型,實現復雜路段大規模交通信號燈最優協同控制[10]。由于復雜路段大規模交通信號燈數據源與數據結構具有多維特性,因此引入經驗緩沖因子降低參數復雜度,根據深度卷積神經網絡數學原理,需形成策略網絡并形成評估指標,設μ為特征識別策略,利用(s,a)衡量識別性能,定義γ表示累計折扣因子,其本質為價值信息,因此可形成如下的交通信號燈最優協同控制評價函數:

J(θμ)=Eθμ[r1+γr2+γ2r3+…]

(4)

由于參數多維特性將導致收斂次數激增,因此引入訓練機制,利用經驗緩沖因子預處理數據,從數據集合中按一定比例進行采樣[11],根據策略安排形成多個訓練集合并存儲相關數據,基于多個存儲集中的參數特性求解交通信號燈最優協同控制評價函數的梯度,從而提升了優化迭代效率,其收斂次數大幅下降,設回報的數學期望為Q,則全交通信號燈最優協同控制如式(2)所示,其中符號?表示求高階偏導,其具備自主進化功能。

(5)

自主進化功能來源于多重網絡中的參數θQ,因其存在融合效應,可利用數據的互通特性自動識別物理量信息[12],降低了參數多維特性導致的數據處理復雜度,提升交通信號燈最優協同控制評價函數的進化性能,且具備一定的智能化,可以實現經驗學習自主演進,求解如下積分。

(6)

基于公式(6),進而構造了大規模交通信號燈協同控制與交通疏導效率之間的耦合模型,為交通信號燈最優協同控制提供收斂依據。機制原理為利用數據交集的存儲與訓練形成數學期望,具體的,在每個時間點上提取特征數據[13],與經驗數據進行交互,將交互結果輸入樣本(st,at,rt,st+1)中進行存儲,其具備時移特性,可動態調整學習行為,且實現了顯性的物理映射,進而提取部分數據采用策略形成訓練集,加快了感知進程,因此復雜路段大規模交通信號燈最優協同控制可表征為如下的數學期望:

(7)

2.3 模型典型需求場景下的仿真驗證

模型典型需求場景為西安市某高度動態復雜路段,利用該文模型對大規模交通信號燈控制模型展開工程效能分析,模型搭建與算法設計是基于Geatpy開源工具箱[14],并在PyCharm集成開發環境下進行,驗證該文模型的合理性。采集了2021年01月~06月期間的某高度動態復雜路段的交通疏導數據,數據采集設備為高清CCD矩陣群,通過池化處理形成經驗池進行仿真。該文抽取池中78600組數據進行訓練,將其中28600組數據作為學習集,剩余50000例數據則為應用集??紤]到交通態勢圖像的采集是在不間斷策略下進行,因此該文引入了融合經驗緩沖因子的深度卷積神經網絡提高原有LSTM模型的判讀效率,其網絡層數目選取為16層保證交通態勢感知的時效性。實驗過程中始終激活Inception V3,保障交通態勢圖像實時輸入,將神經網絡類型設為Target-action Value與Action Value,利用前者神經網絡處理當前狀態s,可得Next Q值,利用后者神經網絡處理當前狀態s,可得eval Q值,實現較長周期內的大規模交通信號燈協同控制收益產出精準預測。將該文所提算法與單純BP神經網絡算法、單純確定性策略梯度法以及改進的深度信念網絡法進行大規模交通信號燈協同控制收益產出預測對比,得出算法的收斂性能對比結果如圖2所示;將該文所提算法與單純確定性策略梯度法、改進深度信念網絡法進行改善高度動態復雜路段交通疏導的效率對比,算法收斂性能的對比結果如圖3所示。

圖2 大規模交通信號燈協同控制收益產出預測子算法仿真圖

圖3 復雜路段大規模交通信號燈最優協同控制子算法仿真圖

3 大規模交通信號燈控制模型應用實踐定量分析

對利用高清CCD矩陣群采集到的融合經驗學習集和實踐應用集的高度動態復雜路段交通運行態勢經驗池展開研究,搭建實踐平臺并對該文模型進行訓練,驗證方法的工程實用性?;诮煌笆姓块T現有的軟硬件設備,輔以高清CCD矩陣群,搭建了模型應用實踐定量分析環境,其分析邏輯示于圖4中。該文在正在使用的配套軟件基礎上利用所提核心算法增加了高度動態復雜路段交通運行態勢經驗池構建、大規模交通信號燈與多智能體之間的物理映射、復雜路段大規模交通信號燈最優協同控制等3個子模塊,其運行進程與主模塊始終保持時間同步性,并利用通信端口保證數據互通,且在可視控制界面上進行實時更新,保障應用實踐定量分析能夠有效進行。采用運行態勢經驗池構建子模塊采集交通態勢圖像,經過預處理池化,并篩選出預先訓練數據形成集合,余下則為測試集;將數據池模塊的集合作為原始變量,利用深度長短期神經網絡對態勢經驗池進行高度動態復雜路段較長周期內的大規模交通信號燈協同控制收益產出進行預測,建立時間正序下的大規模交通信號燈與多智能體之間的物理映射關系;在大規模交通信號燈最優協同控制子模塊中,進而利用GoogLeNet深度神經網絡結合Inception V3模型實現圖像智能化學習[15],利用深度確定性策略梯度算法構建大規模交通信號燈協同控制與交通疏導效率之間的耦合模型,實現復雜路段大規模交通信號燈最優協同控制。三個子模塊針對數據處理進程有一定的輔助分析效果,且具備耦合獨立控制性能,可獨立控制數據集合的形成、收益預測與協同控制行為。

圖4 大規模交通信號燈控制模型應用實踐定量分析邏輯圖

圖4給出了大規模交通信號燈控制模型應用實踐定量分析邏輯框架,利用該平臺對實際應用實踐效果進行分析,對大規模交通信號燈控制模型的效能分析中引入了定量化指標。利用高清CCD矩陣搭建高度動態復雜路段交通運行態勢快速獲取裝置,在收集形成數據樣本的基礎上進行參數設定,考慮到高度動態復雜路段交通疏導參數的多源異構特性,采取差異化的參數設定方式,保證大幅度改善高度動態復雜路段交通疏導的效率等核心參數,該文的對照系統選為西安市市政部門采購的交通信號燈運行狀態可視化實時監測及預警平臺。為了驗證模型與方法的合理性,設置交通信號燈運行狀態可視化實時監測及預警平臺為跟隨系統,對原始訓練數據進行預處理并池化,將數據池根據成像特性劃分為訓練與測試集合,其中的訓練集具有先驗特性,測試集則具備動態進化功能[16]。該文提出了高度動態復雜路段交通疏導的總體有效率、正常交通流下復雜路段交通疏導平均等待時間、正常交通流下復雜路段交通疏導平均隊列長度等3項指標對工程效益進行表征,并仿真得出這3項指標的定量數據,實現精準評判。該文提出大規模交通信號燈控制模型工程實踐效能分析驗證環境人機交互友好性(YH)、大規模交通信號燈控制模型便捷化程度(ZH)、大規模交通信號燈控制模型異常信息互聯推送(YJ)等3項指標,并對其進行定性分析。大規模交通信號燈控制模型應用實踐效能分析對比表如表1所示。

表1 大規模交通信號燈控制模型應用實踐效能分析對比表

4 結論

研究了利用多智能體深度強化學習算法改善基于最長隊列優先配時算法的大規模交通信號燈協同控制模式在高度動態復雜路段交通疏導實踐中顯露的諸多不足,提出了一種基于多智能體深度強化學習的大規模交通信號燈控制模型并進行了典型需求場景下的仿真驗證。首先把大規模交通信號燈協同控制模型完整生命周期運行邏輯進行目標導向下的任務分解,給出了大規模交通信號燈協同控制模型邏輯架構;然后利用深度長短期神經網絡對態勢經驗池進行高度動態復雜路段較長周期內的大規模交通信號燈協同控制收益產出進行預測,建立時間正序下的大規模交通信號燈與多智能體之間的物理映射關系;最后利用深度確定性策略梯度算法構建大規模交通信號燈協同控制與交通疏導效率之間的耦合模型,實現復雜路段大規模交通信號燈最優協同控制。選擇西安市某高度動態復雜路段交通疏導為工程實踐分析載體,開展了大規模交通信號燈協同控制模型工程應用實踐驗證,基于交通及市政部門現有的軟硬件設備,輔以高清CCD矩陣群,搭建了模型仿真驗證環境,從定性與定量兩個層面對模型開展了典型需求場景下的仿真驗證及應用實踐定量分析,多維度驗證了模型的可行性及優越性。

猜你喜歡
信號燈路段動態
國內動態
國內動態
國內動態
中國交通信息化(2019年9期)2019-11-16
動態
基于XGBOOST算法的擁堵路段短時交通流量預測
高速公路重要路段事件檢測技術探討
交通信號燈
基于元胞自動機下的交通事故路段仿真
基于元胞自動機下的交通事故路段仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合