Hierarchical Universal Value Function Approximators

要約

強化学習値関数の複数の目標の集合に対するユニバーサル近似器の構築において重要な進歩があり、これはパラメータ化された方法で状態の長期収益を推定する際の重要な要素です。
オプション フレームワークを使用して、階層型汎用値関数近似器 (H-UVFA) を導入することで、これを階層型強化学習に拡張します。
これにより、時間抽象化設定で期待されるスケーリング、計画、および一般化の追加の利点を活用できるようになります。
私たちは、2 つの階層値関数 $Q(s, g, o; \theta)$ と $Q(s, g, o,
a; \θ)$。
最後に、HUVFA の一般化を実証し、HUVFA が対応する UVFA よりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions — key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.

arxiv情報

著者 Rushiv Arora
発行日 2024-10-11 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6, stat.ML パーマリンク