Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement

要約

我々は、本棚の空いているスロットに本を挿入するなど、望ましいオブジェクトとシーンの配置関係を実現するために、シーン内のオブジェクトを再配置するシステムを提案します。
このパイプラインは、シーンとオブジェクトの両方の新しいジオメトリ、ポーズ、レイアウトに一般化され、3D 点群で直接動作するようにデモンストレーションからトレーニングされています。
私たちのシステムは、特定のシーンに対して幾何学的に類似した再配置ソリューションが多数存在することに伴う課題を克服します。
反復ポーズノイズ除去トレーニング手順を活用することで、正確性を維持しながらマルチモーダル デモンストレーション データを適合させ、マルチモーダル出力を生成できます。
また、一般化と精度の両方を損なう無関係なグローバル構造を無視しながら、関連する局所的な幾何学的特徴を条件付けすることの利点も示します。
シミュレーションと現実世界の両方でオブジェクトの形状と姿勢に対するマルチモダリティの処理と一般化を必要とする 3 つの異なる再配置タスクに対するアプローチを示します。
プロジェクトの Web サイト、コード、ビデオ: https://anthonysimeonov.github.io/rpdiff-multi-modal/

要約(オリジナル)

We propose a system for rearranging objects in a scene to achieve a desired object-scene placing relationship, such as a book inserted in an open slot of a bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of both scenes and objects, and is trained from demonstrations to operate directly on 3D point clouds. Our system overcomes challenges associated with the existence of many geometrically-similar rearrangement solutions for a given scene. By leveraging an iterative pose de-noising training procedure, we can fit multi-modal demonstration data and produce multi-modal outputs while remaining precise and accurate. We also show the advantages of conditioning on relevant local geometric features while ignoring irrelevant global structure that harms both generalization and precision. We demonstrate our approach on three distinct rearrangement tasks that require handling multi-modality and generalization over object shape and pose in both simulation and the real world. Project website, code, and videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/

arxiv情報

著者 Anthony Simeonov,Ankit Goyal,Lucas Manuelli,Lin Yen-Chen,Alina Sarmiento,Alberto Rodriguez,Pulkit Agrawal,Dieter Fox
発行日 2023-07-10 17:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク