自注意力機(jī)制結(jié)合DDPG的機(jī)器人路徑規(guī)劃研究
摘要: 為更好解決深度確定性策略梯度算法在路徑規(guī)劃中存在樣本利用率低、獎(jiǎng)勵(lì)稀疏、網(wǎng)絡(luò)模型穩(wěn)定速度慢等問題,提出了一種改進(jìn)DDPG的算法。通過對(duì)機(jī)器人相機(jī)傳感器獲取圖片信息加入自注意力機(jī)制,利用Dotproduct方法計(jì)算圖片之間的相關(guān)性,能夠?qū)⑤^高權(quán)重精確聚焦在障礙物信息中。在復(fù)雜環(huán)境中,由于機(jī)器人缺乏經(jīng)驗(yàn)導(dǎo)致難以獲得正反饋的獎(jiǎng)勵(lì),影響了機(jī)器人的探索能力。將DDPG算法與HER結(jié)合,提... (共9頁)
開通會(huì)員,享受整站包年服務(wù)