多智能體強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述
摘要: 強(qiáng)化學(xué)習(xí)是一種用于解決序列決策問(wèn)題的常用機(jī)器學(xué)習(xí)方法,核心思想是讓智能體與環(huán)境交互獲得反饋,從而逐步學(xué)會(huì)最佳策略.隨著實(shí)際應(yīng)用對(duì)計(jì)算能力和數(shù)據(jù)規(guī)模的要求不斷提高,單體智能轉(zhuǎn)向群體智能逐漸成為人工智能未來(lái)發(fā)展的必然趨勢(shì),這為強(qiáng)化學(xué)習(xí)帶來(lái)諸多新的機(jī)遇和挑戰(zhàn).文中首先從深度多智能體強(qiáng)化學(xué)習(xí)概念著手,針對(duì)目前的理論困境,如可拓展性較差、效用分配較難、探索-利用困境、環(huán)境非穩(wěn)態(tài)、信息部分... (共22頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)