Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models

要約

強化学習は、複雑な目標の指定、将来の観察とアクションの計画、それらの有用性の批判など、逐次的な意思決定のいくつかの異なる側面を推論するための魅力的なパラダイムを提供します。
ただし、これらの機能を組み合わせて統合すると、効率的な学習と推論のためのモデリングの選択肢を柔軟にしながら、最大限の表現力を維持するという競合するアルゴリズムの課題が生じます。
我々は、目標条件付き政策エージェントを 3 つの生成モジュールに分解する生成フレームワークである Decision Stacks を紹介します。
これらのモジュールは、教師による強制によって並行して学習できる独立した生成モデルを介して、観察、報酬、アクションの時間的進化をシミュレートします。
当社のフレームワークは、アーキテクチャ上のバイアス、最適化の目的とダイナミクス、ドメイン間の転送可能性、推論速度などの重要な要素を考慮して、個々のモジュールを設計する際の表現力と柔軟性の両方を保証します。
私たちの実証結果は、いくつかの MDP および POMDP 環境におけるオフライン ポリシーの最適化に対するディシジョン スタックの有効性を示しており、既存の方法を上回り、柔軟な生成的意思決定を可能にします。

要約(オリジナル)

Reinforcement learning presents an attractive paradigm to reason about several distinct aspects of sequential decision making, such as specifying complex goals, planning future observations and actions, and critiquing their utilities. However, the combined integration of these capabilities poses competing algorithmic challenges in retaining maximal expressivity while allowing for flexibility in modeling choices for efficient learning and inference. We present Decision Stacks, a generative framework that decomposes goal-conditioned policy agents into 3 generative modules. These modules simulate the temporal evolution of observations, rewards, and actions via independent generative models that can be learned in parallel via teacher forcing. Our framework guarantees both expressivity and flexibility in designing individual modules to account for key factors such as architectural bias, optimization objective and dynamics, transferrability across domains, and inference speed. Our empirical results demonstrate the effectiveness of Decision Stacks for offline policy optimization for several MDP and POMDP environments, outperforming existing methods and enabling flexible generative decision making.

arxiv情報

著者 Siyan Zhao,Aditya Grover
発行日 2023-10-29 21:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク