Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model

要約

ロボット学習の最近の進歩では、大規模なモデルと広範なデモンストレーションを使用した模倣学習を使用して、効果的なポリシーを開発しています。
ただし、これらのモデルは、デモンストレーションの量、質、多様性によって制限されることがよくあります。
この論文では、環境とのオンライン相互作用を通じて、オフラインでトレーニングされた模倣学習モデルの改善について検討します。
Policy Decorator を紹介します。これは、モデルに依存しない残差ポリシーを使用して、オンライン インタラクション中に大規模な模倣学習モデルを洗練します。
Policy Decorator は、制御された探索戦略を実装することで、安定したサンプル効率の高いオンライン学習を可能にします。
私たちの評価は、ManiSkill と Adroit の 2 つのベンチマークにわたる 8 つのタスクに及び、2 つの最先端の模倣学習モデル (Behavior Transformer と Diffusion Policy) が含まれます。
結果は、Policy Decorator がオフラインでトレーニングされたポリシーを効果的に改善し、模倣学習モデルのスムーズな動きを維持し、純粋な RL ポリシーの不規則な動作を回避していることを示しています。
ビデオについては、プロジェクト ページ (https://policydecorator.github.io) をご覧ください。

要約(オリジナル)

Recent advancements in robot learning have used imitation learning with large models and extensive demonstrations to develop effective policies. However, these models are often limited by the quantity, quality, and diversity of demonstrations. This paper explores improving offline-trained imitation learning models through online interactions with the environment. We introduce Policy Decorator, which uses a model-agnostic residual policy to refine large imitation learning models during online interactions. By implementing controlled exploration strategies, Policy Decorator enables stable, sample-efficient online learning. Our evaluation spans eight tasks across two benchmarks-ManiSkill and Adroit-and involves two state-of-the-art imitation learning models (Behavior Transformer and Diffusion Policy). The results show Policy Decorator effectively improves the offline-trained policies and preserves the smooth motion of imitation learning models, avoiding the erratic behaviors of pure RL policies. See our project page (https://policydecorator.github.io) for videos.

arxiv情報

著者 Xiu Yuan,Tongzhou Mu,Stone Tao,Yunhao Fang,Mengke Zhang,Hao Su
発行日 2024-12-18 09:06:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク