From Imitation to Refinement — Residual RL for Precise Visual Assembly

要約

現在、行動クローニング (BC) は、現実世界の視覚操作を学習するための主要なパラダイムとして機能しています。
ただし、複数部品の組み立てなど、局所的な修正動作が必要なタスクでは、純粋に人間によるデモンストレーションから堅牢なポリシーを学習することは依然として困難です。
強化学習 (RL) は、タスク報酬の監視と探索を通じてポリシーが局所的に修正動作を獲得できるようにすることで、これらの制限を軽減できます。
このペーパーでは、正確な操作タスクにおいて BC でトレーニングされたポリシーを改善するための RL 微調整の使用について検討します。
私たちは、RL を使用して、拡散モデルやアクション チャンキングなどの最新のアーキテクチャ コンポーネントを組み込んだポリシー ネットワークを直接トレーニングすることに関連する技術的課題を分析し、克服します。
私たちは、標準的なポリシー勾配法とスパース報酬を使用して、凍結 BC トレーニング済み拡散モデル上で残差ポリシーをトレーニングすることを提案します。これは、ResiP (Residual for Precise Manipulation) と呼ばれるアプローチです。
私たちの実験結果は、この残差学習フレームワークが、修正アクションを学習することで、高精度の組み立てタスクにおいてベース BC トレーニング済みモデルを超えて成功率を大幅に向上できることを示しています。
また、ResiP を教師と生徒の蒸留および視覚的ドメインのランダム化と組み合わせることで、私たちの方法により、RGB 画像から直接ロボット組み立てのための現実世界のポリシーを学習できることも示します。
\url{https://residual-assembly.github.io} でビデオとコードを見つけてください。

要約(オリジナル)

Behavior cloning (BC) currently stands as a dominant paradigm for learning real-world visual manipulation. However, in tasks that require locally corrective behaviors like multi-part assembly, learning robust policies purely from human demonstrations remains challenging. Reinforcement learning (RL) can mitigate these limitations by allowing policies to acquire locally corrective behaviors through task reward supervision and exploration. This paper explores the use of RL fine-tuning to improve upon BC-trained policies in precise manipulation tasks. We analyze and overcome technical challenges associated with using RL to directly train policy networks that incorporate modern architectural components like diffusion models and action chunking. We propose training residual policies on top of frozen BC-trained diffusion models using standard policy gradient methods and sparse rewards, an approach we call ResiP (Residual for Precise manipulation). Our experimental results demonstrate that this residual learning framework can significantly improve success rates beyond the base BC-trained models in high-precision assembly tasks by learning corrective actions. We also show that by combining ResiP with teacher-student distillation and visual domain randomization, our method can enable learning real-world policies for robotic assembly directly from RGB images. Find videos and code at \url{https://residual-assembly.github.io}.

arxiv情報

著者 Lars Ankile,Anthony Simeonov,Idan Shenfeld,Marcel Torne,Pulkit Agrawal
発行日 2024-07-23 17:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク