要約
強化学習 (RL) の目標は、期待される累積収益を最大化することです。
この目的は、線形制約の下での状態アクション訪問分布の最適化問題によって表現できることが示されています。
この定式化の二重問題 (二重 RL と呼びます) は制約がなく、最適化が容易です。
オンラインとオフラインの両方で、RL と模倣学習 (IL) 設定の下で、いくつかの最先端のオフポリシー深層強化学習 (RL) アルゴリズムが、統一されたフレームワークにおけるデュアル RL アプローチと見なすことができることを示します。
この統合により、これらの手法の成功に貢献するコンポーネントを研究および特定するための共通の基盤が提供され、また、改善のための新たな洞察によって手法に共通する欠点も明らかになります。
私たちの分析では、以前のオフポリシー模倣学習方法は非現実的な適用範囲の仮定に基づいており、学習されたポリシーと専門家ポリシーの訪問分布の間の特定の f 乖離を最小限に抑えていることが示されています。
私たちは、デュアル RL フレームワークへの簡単な変更を使用した新しい方法を提案します。これにより、弁別器を学習せずに、任意のオフポリシー データを使用したパフォーマンスの模倣学習が可能になり、エキスパートに近いパフォーマンスが得られます。
さらに、最近の SOTA オフライン RL メソッド XQL をデュアル RL フレームワークで構成することにより、Gumbel 回帰損失に代わる代替選択肢を提案します。これにより、パフォーマンスの向上が達成され、XQL のトレーニングの不安定性の問題が解決されます。
プロジェクトのコードと詳細は、https://hari-sikchi.github.io/dual-rl でご覧いただけます。
要約(オリジナル)
The goal of reinforcement learning (RL) is to maximize the expected cumulative return. It has been shown that this objective can be represented by an optimization problem of the state-action visitation distribution under linear constraints. The dual problem of this formulation, which we refer to as dual RL, is unconstrained and easier to optimize. We show that several state-of-the-art off-policy deep reinforcement learning (RL) algorithms, under both online and offline, RL and imitation learning (IL) settings, can be viewed as dual RL approaches in a unified framework. This unification provides a common ground to study and identify the components that contribute to the success of these methods and also reveals the common shortcomings across methods with new insights for improvement. Our analysis shows that prior off-policy imitation learning methods are based on an unrealistic coverage assumption and are minimizing a particular f-divergence between the visitation distributions of the learned policy and the expert policy. We propose a new method using a simple modification to the dual RL framework that allows for performant imitation learning with arbitrary off-policy data to obtain near-expert performance, without learning a discriminator. Further, by framing a recent SOTA offline RL method XQL in the dual RL framework, we propose alternative choices to replace the Gumbel regression loss, which achieve improved performance and resolve the training instability issue of XQL. Project code and details can be found at this https://hari-sikchi.github.io/dual-rl.
arxiv情報
著者 | Harshit Sikchi,Qinqing Zheng,Amy Zhang,Scott Niekum |
発行日 | 2023-06-22 20:54:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google