Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

要約

強化学習 (RL) の目標は、期待される累積収益を最大化するポリシーを見つけることです。
この目的は、線形制約の下での状態アクション訪問分布の最適化問題として表すことができることが示されています。
この定式化の二重問題 (二重 RL と呼びます) は制約がなく、最適化が容易です。
この研究では、まず、共有構造を備えたデュアル RL アプローチのインスタンスとして、いくつかの最先端のオフライン RL およびオフライン模倣学習 (IL) アルゴリズムをキャストしました。
このような統合により、従来の方法の欠点の根本原因を特定できるようになります。
オフライン IL の場合、私たちの分析によると、従来の方法は制限的なカバレッジの仮定に基づいており、実際のパフォーマンスは大幅に制限されています。
この制限を修正するために、我々は、任意のオフポリシーデータから模倣して専門家に近いパフォーマンスを得るために学習する、ディスクリミネーターフリーの新しい手法 ReCOIL を提案します。
オフライン RL については、私たちの分析はデュアル フレームワークで最近のオフライン RL 手法 XQL を組み立て、さらに、XQL の既知のトレーニングの不安定性の問題を解決するガンベル回帰損失に対する代替選択肢を提供する新しい手法 f-DVL を提案します。
私たちが提案した手法である ReCOIL と f-DVL の両方による IL および RL におけるパフォーマンスの向上は、シミュレートされたロボットの移動および操作タスクの広範なスイートで検証されています。
プロジェクトのコードと詳細は、https://hari-sikchi.github.io/dual-rl でご覧いただけます。

要約(オリジナル)

The goal of reinforcement learning (RL) is to find a policy that maximizes the expected cumulative return. It has been shown that this objective can be represented as an optimization problem of state-action visitation distribution under linear constraints. The dual problem of this formulation, which we refer to as dual RL, is unconstrained and easier to optimize. In this work, we first cast several state-of-the-art offline RL and offline imitation learning (IL) algorithms as instances of dual RL approaches with shared structures. Such unification allows us to identify the root cause of the shortcomings of prior methods. For offline IL, our analysis shows that prior methods are based on a restrictive coverage assumption that greatly limits their performance in practice. To fix this limitation, we propose a new discriminator-free method ReCOIL that learns to imitate from arbitrary off-policy data to obtain near-expert performance. For offline RL, our analysis frames a recent offline RL method XQL in the dual framework, and we further propose a new method f-DVL that provides alternative choices to the Gumbel regression loss that fixes the known training instability issue of XQL. The performance improvements by both of our proposed methods, ReCOIL and f-DVL, in IL and RL are validated on an extensive suite of simulated robot locomotion and manipulation tasks. Project code and details can be found at this https://hari-sikchi.github.io/dual-rl.

arxiv情報

著者 Harshit Sikchi,Qinqing Zheng,Amy Zhang,Scott Niekum
発行日 2024-01-26 16:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク