要約
強化学習フレームワークの下で現実世界の問題を定式化するには、エージェントの計画期間を明確にする、学習目標の割引係数 (割引された累積報酬) の選択など、自明ではない設計上の選択が必要になります。
この研究では、基礎となるマルコフ決定プロセスの構造パラメーターを考慮して、バイアス分散のトレードオフに対する割引係数の影響を調査します。
私たちの結果は、特に部分的な可観測性の下では、計画期間を短くすることが有益である可能性があるという考えを裏付けています。
要約(オリジナル)
Formulating a real-world problem under the Reinforcement Learning framework involves non-trivial design choices, such as selecting a discount factor for the learning objective (discounted cumulative rewards), which articulates the planning horizon of the agent. This work investigates the impact of the discount factor on the biasvariance trade-off given structural parameters of the underlying Markov Decision Process. Our results support the idea that a shorter planning horizon might be beneficial, especially under partial observability.
arxiv情報
著者 | Randy Lefebvre,Audrey Durand |
発行日 | 2024-07-22 17:34:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google