基于PPO算法的自動(dòng)駕駛?cè)藱C(jī)交互式強(qiáng)化學(xué)習(xí)方法
摘要: 針對(duì)當(dāng)前自動(dòng)駕駛領(lǐng)域中深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)所面臨的高計(jì)算性能需求和收斂速度慢的問(wèn)題,將變分自編碼器(variational autoencoder, VAE)和近端策略?xún)?yōu)化算法(proximal policy optimization, PPO)相結(jié)合。通過(guò)采用VAE的特征編碼技術(shù),將Carla模擬器獲取的語(yǔ)義圖像有效... (共5頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)