IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读
IntelliLight 全文脈絡(luò)
- 概述
- 1、本文貢獻(xiàn)
- 1)Experiments with real traffic data.
- 2)Interpretations of the policy.
- 3)A phase-gated model learning.
- 2、問(wèn)題定義
- 1)State
- 2)Action
- 3)Reward
- 3、網(wǎng)絡(luò)結(jié)構(gòu)
- (1)off-line階段
- (2)on-line階段
- 4、phase-sensitive
- (1)phase gate 相位門(mén)
- (2)Memory Palace 記憶宮殿
- 5、實(shí)驗(yàn)結(jié)果說(shuō)明
- 1)仿真數(shù)據(jù)
- 2)真實(shí)數(shù)據(jù)
概述
1、本文貢獻(xiàn)
1)Experiments with real traffic data.
使用了真實(shí)的數(shù)據(jù)集。
2)Interpretations of the policy.
對(duì)選擇的政策進(jìn)行了解釋。
3)A phase-gated model learning.
以往的研究都是將phase作為一個(gè)特征,還包含有其他的特征如不同車(chē)道的車(chē)輛數(shù),車(chē)輛位置等等。很有可能phase這一特征并沒(méi)有產(chǎn)生什么作用。例如下圖這種情況,兩個(gè)場(chǎng)景除了交通燈不一致之外,其余完全相同,很有可能模型對(duì)這兩種情況作出了相同的決策。但實(shí)際情況是A希望保持現(xiàn)在的phase,但B希望改變現(xiàn)在的phase。 因此,提出了一種new phase-sensitive【新的相位敏感機(jī)制--自譯】,包含了記憶宮殿和相位門(mén),兩種改進(jìn)措施。
2、問(wèn)題定義
1)State
(1)Traffic light phase
綠燈階段包含后續(xù)的黃燈階段(3s),且只能按照指定的順序變化(1->2->1->2->…)
- Green-WE:WE方向?yàn)榫G燈,NS方向?yàn)榧t燈
- Red-WE:WE方向?yàn)榧t燈,NS方向?yàn)榫G燈
(2)Traffic condition
針對(duì)每一個(gè)車(chē)道的,如果路口有多條車(chē)道,那么就有多個(gè)值
- L :車(chē)道i上的隊(duì)列長(zhǎng)度 Li
- V :車(chē)道i上的車(chē)輛數(shù)量 Vi
- W :車(chē)道i上的平均等待時(shí)間 Wi
- M :車(chē)輛位置的圖像表示
2)Action
a = 0:改變相位
a = 1:保持相位
3)Reward
多種因素的加權(quán)和
計(jì)算公式及系數(shù):
解釋:
(1)車(chē)道排隊(duì)長(zhǎng)度L之和
其中L計(jì)算為給定車(chē)道上最后一個(gè)時(shí)間步長(zhǎng)的停車(chē)車(chē)輛總數(shù)。低于0.1米/秒的速度被認(rèn)為是停止。
(2)車(chē)道平均等待時(shí)間之和W
其中W定義為車(chē)輛自上次速度超過(guò)0.1m/s以來(lái),以低于0.1m/s的速度行駛的時(shí)間(分鐘)。基本上,車(chē)輛每次行駛的等待時(shí)間都重置為0。
(3)信號(hào)燈切換次數(shù)C
(4)車(chē)輛延遲之和D
(5)在動(dòng)作a后的時(shí)間間隔內(nèi)通過(guò)交叉口的車(chē)輛總數(shù)N
(6)在行動(dòng)a后的時(shí)間間隔內(nèi)通過(guò)交叉口的車(chē)輛行駛時(shí)間總和,定義為車(chē)輛在接近車(chē)道上花費(fèi)的總時(shí)間(以分鐘為單位) T
3、網(wǎng)絡(luò)結(jié)構(gòu)
(1)off-line階段
使用log來(lái)訓(xùn)練系統(tǒng)
(2)on-line階段
每個(gè)時(shí)間t系統(tǒng)會(huì)得到一些state(例如我們想每5s確定一下是否要改變信號(hào)燈的狀態(tài)), 接著模型根據(jù)這些state給出action, 并得到reward. 我們將這些存入memory. 在一些步驟后, 更新模型.
4、phase-sensitive
(1)phase gate 相位門(mén)
針對(duì)不同的phase,選擇不同的模型,突出了特征phase的重要性。
如上圖所示,當(dāng)phase=0時(shí),左側(cè)的模型被激活;
當(dāng)phase=1時(shí),右側(cè)的模型被激活。
(2)Memory Palace 記憶宮殿
DQN使用經(jīng)驗(yàn)回放機(jī)制,解決樣本不是獨(dú)立同分布和具有強(qiáng)相關(guān)性的兩個(gè)問(wèn)題。
但對(duì)于數(shù)據(jù)不平衡,抽樣的結(jié)果也可能是不平衡的。因此,作者使用記憶宮殿方式,將不同的phase-action組合的樣本存儲(chǔ)在不同的memory庫(kù)中,然后從不同的宮殿中抽取相同數(shù)量的樣本,如下圖所示。
5、實(shí)驗(yàn)結(jié)果說(shuō)明
1)仿真數(shù)據(jù)
2)真實(shí)數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CCF 2015年题目题解 - Pyth
- 下一篇: A Deep Reinforcement