要約
強化学習 (RL) は、線形制約のある凸プログラムとして定式化できることはよく知られています。
この定式化の双対形式は制約がなく、これを双対 RL と呼び、凸最適化の既存のツールを活用して RL エージェントの学習パフォーマンスを向上させることができます。
いくつかの最先端のディープ RL アルゴリズム (オンライン、オフライン、および模倣設定) は、統合されたフレームワークでデュアル RL アプローチと見なすことができることを示します。
この統一は、これらの方法の成功に実際に貢献するコンポーネントを特定するために、共通の基盤で研究される方法を必要とします。
私たちの統合はまた、二重空間における以前のポリシー外の模倣学習方法が非現実的なカバレッジの仮定に基づいており、特定の f 発散に一致することに制限されていることも明らかにしています。
専門家に近いパフォーマンスを得るために、任意のポリシー外データを使用した模倣学習を可能にするデュアルフレームワークへの単純な変更を使用して、新しい方法を提案します。
要約(オリジナル)
It is well known that Reinforcement Learning (RL) can be formulated as a convex program with linear constraints. The dual form of this formulation is unconstrained, which we refer to as dual RL, and can leverage preexisting tools from convex optimization to improve the learning performance of RL agents. We show that several state-of-the-art deep RL algorithms (in online, offline, and imitation settings) can be viewed as dual RL approaches in a unified framework. This unification calls for the methods to be studied on common ground, so as to identify the components that actually contribute to the success of these methods. Our unification also reveals that prior off-policy imitation learning methods in the dual space are based on an unrealistic coverage assumption and are restricted to matching a particular f-divergence. We propose a new method using a simple modification to the dual framework that allows for imitation learning with arbitrary off-policy data to obtain near-expert performance.
arxiv情報
著者 | Harshit Sikchi,Amy Zhang,Scott Niekum |
発行日 | 2023-02-16 20:10:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google