基于強化學習的艦船目標跟蹤有限理性博弈算法研究
摘要: 針對現(xiàn)實中的決策者并非總能完全理性分析問題的情況,提出有限理性下的追逃博弈算法。建立追逃博弈模型,先求解完全理性下博弈雙方的鞍點策略。引入有限理性level-k模型,對追擊者和躲避者思考策略的層次進行結(jié)構(gòu)性假設(shè),允許追逃雙方具備不同的策略推理能力,并給出相應等級的值函數(shù)和策略,策略滿足HJI方程。隨著等級的增加,策略最終會趨于納什均衡。由于HJI方程難以直接求解,基于強化學習的... (共8頁)
開通會員,享受整站包年服務