Single-Reset Divide & Conquer Imitation Learning

要約

デモンストレーションは、深層強化学習アルゴリズムの学習プロセスを高速化するためによく使用されます。
複数のデモンストレーションにアクセスすることの難しさに対処するために、単一のデモンストレーションから学習するいくつかのアルゴリズムが開発されました。
特に、Divide & Conquer 模倣学習アルゴリズムは、逐次バイアスを利用して、単一の状態ベースのデモンストレーションを使用して複雑なロボット タスクの制御ポリシーを学習します。
最新バージョンの DCIL-II は、驚くべきサンプル効率を示します。
この新しい方法は、拡張された目標条件付き強化学習フレームワーク内で動作し、デモンストレーションから抽出された中間目標とその後の目標の間の互換性を保証します。
ただし、実証された軌道に沿ってシステムを特定の状態にリセットできるという前提から基本的な制限が生じ、アプリケーションがシミュレートされたシステムに限定されます。
これに応じて、連続リセットではなく単一の初期状態リセットに依存することでこの制約を克服するように設計された、シングル リセット DCIL (SR-DCIL) と呼ばれる拡張機能を導入します。
このより困難な設定に対処するために、Demo-Buffer と Value Cloning を含む、Learning from Demonstration の文献にインスピレーションを得た 2 つのメカニズムを統合し、エージェントを互換性のある成功状態に導きます。
さらに、リセット状態から離れた目標に到達するためのトレーニングを容易にするために、近似目標切り替えを導入します。
私たちの論文は、DCIL-II におけるリセット仮定の重要性を強調し、SR-DCIL バリアントのメカニズムを提示し、DCIL-II と比較して困難なロボット タスクにおけるパフォーマンスを評価するなど、いくつかの貢献を行っています。
要約すると、この研究は、DCIL のフレームワークにおけるリセット仮定の重要性についての洞察を提供し、より弱いリセット仮定の下で制御ポリシーを学習できる汎用性の高いアルゴリズムに向けた最初のステップである SR-DCIL を提案します。

要約(オリジナル)

Demonstrations are commonly used to speed up the learning process of Deep Reinforcement Learning algorithms. To cope with the difficulty of accessing multiple demonstrations, some algorithms have been developed to learn from a single demonstration. In particular, the Divide & Conquer Imitation Learning algorithms leverage a sequential bias to learn a control policy for complex robotic tasks using a single state-based demonstration. The latest version, DCIL-II demonstrates remarkable sample efficiency. This novel method operates within an extended Goal-Conditioned Reinforcement Learning framework, ensuring compatibility between intermediate and subsequent goals extracted from the demonstration. However, a fundamental limitation arises from the assumption that the system can be reset to specific states along the demonstrated trajectory, confining the application to simulated systems. In response, we introduce an extension called Single-Reset DCIL (SR-DCIL), designed to overcome this constraint by relying on a single initial state reset rather than sequential resets. To address this more challenging setting, we integrate two mechanisms inspired by the Learning from Demonstrations literature, including a Demo-Buffer and Value Cloning, to guide the agent toward compatible success states. In addition, we introduce Approximate Goal Switching to facilitate training to reach goals distant from the reset state. Our paper makes several contributions, highlighting the importance of the reset assumption in DCIL-II, presenting the mechanisms of SR-DCIL variants and evaluating their performance in challenging robotic tasks compared to DCIL-II. In summary, this work offers insights into the significance of reset assumptions in the framework of DCIL and proposes SR-DCIL, a first step toward a versatile algorithm capable of learning control policies under a weaker reset assumption.

arxiv情報

著者 Alexandre Chenu,Olivier Serris,Olivier Sigaud,Nicolas Perrin-Gilbert
発行日 2024-02-14 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク