當前位置:首頁 > 科技文檔 > 武器工業(yè)與軍事技術(shù) > 正文

基于強化學習的艦船目標跟蹤有限理性博弈算法研究

計算機工程與應用 頁數(shù): 8 2024-03-26
摘要: 針對現(xiàn)實中的決策者并非總能完全理性分析問題的情況,提出有限理性下的追逃博弈算法。建立追逃博弈模型,先求解完全理性下博弈雙方的鞍點策略。引入有限理性level-k模型,對追擊者和躲避者思考策略的層次進行結(jié)構(gòu)性假設(shè),允許追逃雙方具備不同的策略推理能力,并給出相應等級的值函數(shù)和策略,策略滿足HJI方程。隨著等級的增加,策略最終會趨于納什均衡。由于HJI方程難以直接求解,基于強化學習的... (共8頁)

開通會員,享受整站包年服務