From Imitation to Refinement — Residual RL for Precise Assembly

要約

アクションのチャンク化や拡散などの動作クローニング (BC) の進歩により、優れた機能が可能になりました。
それでも、組み立てなど、オブジェクトの正確な位置合わせと挿入が必要なタスクの信頼できるポリシーを学習するには、模倣だけでは依然として不十分です。
私たちの重要な洞察は、チャンク化された BC ポリシーが軌道プランナーとして効果的に機能し、長期的なタスクを可能にするということです。
逆に、アクション チャンクを開ループで実行するため、信頼性の高い実行に必要なきめ細かい反応性が欠けています。
さらに、データが増加しているにもかかわらず、BC ポリシーのパフォーマンスが飽和していることがわかりました。
強化学習 (RL) は BC の制限を克服する自然な方法ですが、拡散ポリシーのようなアクション チャンク モデルに直接適用するのは簡単ではありません。
我々は、RL でトレーニングされた完全閉ループ残差ポリシーを使用して、凍結されたチャンク化された BC モデルを強化することで、これらの課題を回避する、シンプルかつ効果的な手法である ResiP (Residual for Precise Manipulation) を提案します。
残差ポリシーはオンポリシー RL を介してトレーニングされ、BC 軌道プランナーを変更することなく分布シフトに対処し、事後制御を導入します。
高精度操作タスクの評価では、BC メソッドおよび直接 RL 微調整よりも ResiP の強力なパフォーマンスが実証されています。
ビデオ、コード、データは https://residual-assembly.github.io で入手できます。

要約(オリジナル)

Advances in behavior cloning (BC), like action-chunking and diffusion, have enabled impressive capabilities. Still, imitation alone remains insufficient for learning reliable policies for tasks requiring precise aligning and inserting of objects, like assembly. Our key insight is that chunked BC policies effectively function as trajectory planners, enabling long-horizon tasks. Conversely, as they execute action chunks open-loop, they lack the fine-grained reactivity necessary for reliable execution. Further, we find that the performance of BC policies saturates despite increasing data. Reinforcement learning (RL) is a natural way to overcome BC’s limitations, but it is not straightforward to apply directly to action-chunked models like diffusion policies. We present a simple yet effective method, ResiP (Residual for Precise Manipulation), that sidesteps these challenges by augmenting a frozen, chunked BC model with a fully closed-loop residual policy trained with RL. The residual policy is trained via on-policy RL, addressing distribution shifts and introducing reactive control without altering the BC trajectory planner. Evaluation on high-precision manipulation tasks demonstrates strong performance of ResiP over BC methods and direct RL fine-tuning. Videos, code, and data are available at https://residual-assembly.github.io.

arxiv情報

著者 Lars Ankile,Anthony Simeonov,Idan Shenfeld,Marcel Torne,Pulkit Agrawal
発行日 2024-11-14 16:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク