Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning with Energy-based Models

要約

最近、報酬条件付き強化学習 (RCRL) が、そのシンプルさ、柔軟性、ポリシーに準拠しない性質により人気を集めています。
ただし、現在の RCRL アプローチは根本的に制限されており、RCRL の 2 つの重要な課題、つまり、高額の Reward-to-Go (RTG) 入力に対する一般化の改善と、配布期間外 (OOD) RTG クエリの回避という RCRL の 2 つの重要な課題に対処できていないことを示します。
テスト時間。
バニラ RCRL アーキテクチャをトレーニングする際のこれらの課題に対処するために、ベイズの定理に触発された RCRL の新しい帰納的バイアスのセットであるベイズ再パラメータ化 RCRL (BR-RCRL) を提案します。
BR-RCRL は、バニラ RCRL が高い RTG 入力を一般化することを妨げる中心的な障害、つまりモデルが異なる RTG 入力を独立した値として扱う傾向 (これを「RTG 独立性」と呼ぶ) を除去します。
BR-RCRL を使用すると、付随する適応推論メソッドを設計することもできます。これにより、バニラ RCRL メソッドで予測不可能な動作を引き起こす OOD クエリを回避しながら、総利益を最大化できます。
BR-RCRL が Gym-Mujoco および Atari オフライン RL ベンチマークで最先端のパフォーマンスを達成し、バニラ RCRL よりも最大 11% 向上していることを示します。

要約(オリジナル)

Recently, reward-conditioned reinforcement learning (RCRL) has gained popularity due to its simplicity, flexibility, and off-policy nature. However, we will show that current RCRL approaches are fundamentally limited and fail to address two critical challenges of RCRL — improving generalization on high reward-to-go (RTG) inputs, and avoiding out-of-distribution (OOD) RTG queries during testing time. To address these challenges when training vanilla RCRL architectures, we propose Bayesian Reparameterized RCRL (BR-RCRL), a novel set of inductive biases for RCRL inspired by Bayes’ theorem. BR-RCRL removes a core obstacle preventing vanilla RCRL from generalizing on high RTG inputs — a tendency that the model treats different RTG inputs as independent values, which we term “RTG Independence’. BR-RCRL also allows us to design an accompanying adaptive inference method, which maximizes total returns while avoiding OOD queries that yield unpredictable behaviors in vanilla RCRL methods. We show that BR-RCRL achieves state-of-the-art performance on the Gym-Mujoco and Atari offline RL benchmarks, improving upon vanilla RCRL by up to 11%.

arxiv情報

著者 Wenhao Ding,Tong Che,Ding Zhao,Marco Pavone
発行日 2023-05-18 23:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク