要約
意思決定に重要な部分ではモデルが正確であるべきであるという意思決定認識モデル学習の考え方が、モデルベースの強化学習で注目を集めています。
有望な理論的結果は確立されていますが、意思決定認識損失を利用するアルゴリズムの経験的パフォーマンスは、特に連続制御問題において不足しています。
この論文では、意思決定認識強化学習モデルに必要なコンポーネントに関する研究を紹介し、優れたパフォーマンスのアルゴリズムを可能にする設計の選択肢を紹介します。
この目的を達成するために、私たちはこの分野の著名なアルゴリズムのアイデアについて理論的および実証的な調査を提供します。
MuZero の一連の作業で確立された経験に基づく設計上の決定が、関連するアルゴリズムの優れたパフォーマンスを達成するために不可欠であることを強調し、確率的環境における価値認識アルゴリズムの異なるインスタンス化間の動作の違いを紹介します。
これらの洞察を使用して、連続状態空間における意思決定認識モデルベースの強化学習のための潜在モデルベースの意思決定認識アクタークリティック フレームワーク ($\lambda$-AC) を提案し、さまざまな環境における重要な設計の選択肢を強調します。
要約(オリジナル)
The idea of decision-aware model learning, that models should be accurate where it matters for decision-making, has gained prominence in model-based reinforcement learning. While promising theoretical results have been established, the empirical performance of algorithms leveraging a decision-aware loss has been lacking, especially in continuous control problems. In this paper, we present a study on the necessary components for decision-aware reinforcement learning models and we showcase design choices that enable well-performing algorithms. To this end, we provide a theoretical and empirical investigation into prominent algorithmic ideas in the field. We highlight that empirical design decisions established in the MuZero line of works are vital to achieving good performance for related algorithms, and we showcase differences in behavior between different instantiations of value-aware algorithms in stochastic environments. Using these insights, we propose the Latent Model-Based Decision-Aware Actor-Critic framework ($\lambda$-AC) for decision-aware model-based reinforcement learning in continuous state-spaces and highlight important design choices in different environments.
arxiv情報
著者 | Claas A Voelcker,Arash Ahmadian,Romina Abachi,Igor Gilitschenski,Amir-massoud Farahmand |
発行日 | 2023-06-30 02:06:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google