要約
ロボット アプリケーションの 3D シーンの理解には、リアルタイム推論、オブジェクト中心の潜在表現学習、正確な 6D 姿勢推定、オブジェクトの 3D 再構成など、独自の一連の要件が示されます。
シーンを理解するための現在の方法は通常、明示的または学習された体積表現と組み合わせたトレーニング済みモデルの組み合わせに依存していますが、そのすべてに独自の欠点と制限があります。
DreamUp3D は、単一の RGB-D 画像のみから情報を受ける 3D シーンで推論を実行するように明示的に設計された新しいオブジェクト中心生成モデル (OCGM) です。
DreamUp3D は、エンドツーエンドでトレーニングされた自己教師モデルであり、オブジェクトのセグメント化、3D オブジェクトの再構築、オブジェクト中心の潜在表現の生成、オブジェクトごとの正確な 6D 姿勢推定が可能です。
3D シーンの再構築、オブジェクトのマッチング、オブジェクトの姿勢推定などのさまざまなタスクにおいて、DreamUp3D を NeRF、事前トレーニングされた CLIP 機能、ObSurf、ObPose などのベースラインと比較します。
私たちの実験では、私たちのモデルが実世界のシナリオですべてのベースラインを大幅に上回り、ロボット工学アプリケーションで示される厳しい要求を満たしながら、3D シーン理解タスクへの適用可能性を示していることがわかりました。
要約(オリジナル)
3D scene understanding for robotic applications exhibits a unique set of requirements including real-time inference, object-centric latent representation learning, accurate 6D pose estimation and 3D reconstruction of objects. Current methods for scene understanding typically rely on a combination of trained models paired with either an explicit or learnt volumetric representation, all of which have their own drawbacks and limitations. We introduce DreamUp3D, a novel Object-Centric Generative Model (OCGM) designed explicitly to perform inference on a 3D scene informed only by a single RGB-D image. DreamUp3D is a self-supervised model, trained end-to-end, and is capable of segmenting objects, providing 3D object reconstructions, generating object-centric latent representations and accurate per-object 6D pose estimates. We compare DreamUp3D to baselines including NeRFs, pre-trained CLIP-features, ObSurf, and ObPose, in a range of tasks including 3D scene reconstruction, object matching and object pose estimation. Our experiments show that our model outperforms all baselines by a significant margin in real-world scenarios displaying its applicability for 3D scene understanding tasks while meeting the strict demands exhibited in robotics applications.
arxiv情報
著者 | Yizhe Wu,Haitz Sáez de Ocáriz Borde,Jack Collins,Oiwi Parker Jones,Ingmar Posner |
発行日 | 2024-02-26 05:17:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google