要約
アクションのチャンク化や拡散などの動作クローニング (BC) の最近の進歩は、目覚ましい進歩をもたらしました。
それでも、物体の位置合わせや挿入など、信頼性が高く正確な動作が必要な作業には、模倣だけでは依然として不十分です。
私たちの重要な洞察は、チャンク化された BC ポリシーが軌道プランナーとして機能し、長期的なタスクを可能にするということです。
逆に、アクション チャンクを開ループで実行するため、信頼性の高い実行に必要なきめ細かい反応性が欠けています。
さらに、データが増加しているにもかかわらず、BC ポリシーのパフォーマンスが飽和していることがわかりました。
強化学習 (RL) はこれを克服する自然な方法ですが、拡散ポリシーのようなアクション チャンク モデルに直接適用するのは簡単ではありません。
我々は、RL でトレーニングされた完全閉ループ残差ポリシーを使用して、凍結されたチャンク化された BC モデルを強化することで、これらの課題を回避する、シンプルかつ効果的な手法である ResiP (Residual for Precise Manipulation) を提案します。
残差ポリシーはオンポリシー RL を介してトレーニングされ、BC 軌道プランナーを変更することなく分布シフトに対処し、反応性を導入します。
高精度操作タスクの評価では、BC メソッドおよび直接 RL 微調整よりも ResiP の強力なパフォーマンスが実証されています。
ビデオ、コード、データは \url{https://residual-assembly.github.io} で入手できます。
要約(オリジナル)
Recent advances in behavior cloning (BC), like action-chunking and diffusion, have led to impressive progress. Still, imitation alone remains insufficient for tasks requiring reliable and precise movements, such as aligning and inserting objects. Our key insight is that chunked BC policies function as trajectory planners, enabling long-horizon tasks. Conversely, as they execute action chunks open-loop, they lack the fine-grained reactivity necessary for reliable execution. Further, we find that the performance of BC policies saturates despite increasing data. Reinforcement learning (RL) is a natural way to overcome this, but it is not straightforward to apply directly to action-chunked models like diffusion policies. We present a simple yet effective method, ResiP (Residual for Precise Manipulation), that sidesteps these challenges by augmenting a frozen, chunked BC model with a fully closed-loop residual policy trained with RL. The residual policy is trained via on-policy RL, addressing distribution shifts and introducing reactivity without altering the BC trajectory planner. Evaluation on high-precision manipulation tasks demonstrates strong performance of ResiP over BC methods and direct RL fine-tuning. Videos, code, and data are available at \url{https://residual-assembly.github.io}.
arxiv情報
著者 | Lars Ankile,Anthony Simeonov,Idan Shenfeld,Marcel Torne,Pulkit Agrawal |
発行日 | 2024-11-04 18:54:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google