Goal-Space Planning with Subgoal Models

要約

このホワイト ペーパーでは、バックグラウンド プランニングを使用したモデルベースの強化学習への新しいアプローチを調査します。Dyna アーキテクチャと同様に、(近似) 動的プログラミング更新とモデルフリー更新を混合します。
学習したモデルを使用したバックグラウンド プランニングは、Double DQN などのモデルを使用しない代替手段よりも悪いことがよくありますが、前者はメモリと計算を大幅に使用します。
根本的な問題は、学習したモデルが不正確になり、特に多くのステップを反復した場合に、無効な状態が生成されることが多いことです。
このホワイト ペーパーでは、バックグラウンド プランニングを一連の (抽象的な) サブゴールに制約し、ローカルのサブゴール条件付きモデルのみを学習することで、この制限を回避します。
この目標空間計画 (GSP) アプローチは、より計算効率が高く、より高速な長期計画のための時間的抽象化を自然に組み込み、移行ダイナミクスを完全に学習することを回避します。
さまざまな状況で、GSP アルゴリズムが Double DQN ベースラインよりも大幅に高速に学習できることを示します。

要約(オリジナル)

This paper investigates a new approach to model-based reinforcement learning using background planning: mixing (approximate) dynamic programming updates and model-free updates, similar to the Dyna architecture. Background planning with learned models is often worse than model-free alternatives, such as Double DQN, even though the former uses significantly more memory and computation. The fundamental problem is that learned models can be inaccurate and often generate invalid states, especially when iterated many steps. In this paper, we avoid this limitation by constraining background planning to a set of (abstract) subgoals and learning only local, subgoal-conditioned models. This goal-space planning (GSP) approach is more computationally efficient, naturally incorporates temporal abstraction for faster long-horizon planning and avoids learning the transition dynamics entirely. We show that our GSP algorithm can learn significantly faster than a Double DQN baseline in a variety of situations.

arxiv情報

著者 Chunlok Lo,Gabor Mihucz,Adam White,Farzane Aminmansour,Martha White
発行日 2023-02-14 07:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク