Disentangled Object-Centric Image Representation for Robotic Manipulation

要約

ビジョンからロボット操作スキルを学ぶことは、現実世界のシナリオに広く一般化できるロボット工学アプリケーションを開発するための有望なアプローチです。
そのため、このビジョンを有効にするための多くのアプローチは、実り多い結果で調査されています。
特に、オブジェクト中心の表現方法は、スキル学習のより良い帰納的バイアスを提供することが示されており、パフォーマンスと一般化の改善につながります。
それにもかかわらず、オブジェクト中心の方法は、マルチオブジェクト環境で簡単な操作スキルを学ぶのに苦労する可能性があることを示しています。
したがって、興味のあるオブジェクト、障害物、およびロボットの具体化のオブジェクトを導入するオブジェクト中心のフレームワークであるDocirを提案します。
このアプローチは、マルチオブジェクト環境での視覚入力からスキルを学習し、視覚的な入力からスキルを整えるための最先端のパフォーマンスにつながり、テスト時にシーンの関心のあるオブジェクトとディストラクタの変化に一般化することを示します。
さらに、シミュレーションと現実世界へのゼロショット転送の両方でその有効性を示しています。

要約(オリジナル)

Learning robotic manipulation skills from vision is a promising approach for developing robotics applications that can generalize broadly to real-world scenarios. As such, many approaches to enable this vision have been explored with fruitful results. Particularly, object-centric representation methods have been shown to provide better inductive biases for skill learning, leading to improved performance and generalization. Nonetheless, we show that object-centric methods can struggle to learn simple manipulation skills in multi-object environments. Thus, we propose DOCIR, an object-centric framework that introduces a disentangled representation for objects of interest, obstacles, and robot embodiment. We show that this approach leads to state-of-the-art performance for learning pick and place skills from visual inputs in multi-object environments and generalizes at test time to changing objects of interest and distractors in the scene. Furthermore, we show its efficacy both in simulation and zero-shot transfer to the real world.

arxiv情報

著者 David Emukpere,Romain Deffayet,Bingbing Wu,Romain Brégier,Michael Niemaz,Jean-Luc Meunier,Denys Proux,Jean-Michel Renders,Seungsu Kim
発行日 2025-03-14 16:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク