Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models

要約

Dream2Real は、2D データでトレーニングされたビジョン言語モデル (VLM) を 3D オブジェクト再配置パイプラインに統合するロボット工学フレームワークです。
これは、ロボットがシーンの 3D 表現を自律的に構築することによって実現され、オブジェクトを仮想的に再配置し、その結果配置された画像をレンダリングすることができます。
これらのレンダリングは VLM によって評価されるため、ユーザーの指示に最も適した配置が選択され、ピック アンド プレイスで現実世界に再作成されます。
これにより、配置例のトレーニング データセットを収集することなく、言語条件付き再配置をゼロショットで実行できるようになります。
一連の実世界タスクの結果は、このフレームワークが気を散らすものに対して堅牢であり、言語によって制御可能であり、複雑な複数オブジェクトの関係を理解でき、卓上タスクと 6-DoF 再配置タスクの両方に容易に適用できることを示しています。

要約(オリジナル)

We introduce Dream2Real, a robotics framework which integrates vision-language models (VLMs) trained on 2D data into a 3D object rearrangement pipeline. This is achieved by the robot autonomously constructing a 3D representation of the scene, where objects can be rearranged virtually and an image of the resulting arrangement rendered. These renders are evaluated by a VLM, so that the arrangement which best satisfies the user instruction is selected and recreated in the real world with pick-and-place. This enables language-conditioned rearrangement to be performed zero-shot, without needing to collect a training dataset of example arrangements. Results on a series of real-world tasks show that this framework is robust to distractors, controllable by language, capable of understanding complex multi-object relations, and readily applicable to both tabletop and 6-DoF rearrangement tasks.

arxiv情報

著者 Ivan Kapelyukh,Yifei Ren,Ignacio Alzugaray,Edward Johns
発行日 2024-07-29 20:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク