要約
単一の RGB-D 画像から複雑なシーン内の複数のオブジェクトの完全なジオメトリを復元する 3D 形状完成方法を紹介します。
単一オブジェクトの 3D 形状の完成は目覚ましい進歩を遂げていますが、非常に乱雑な現実世界の複数オブジェクトのシーンでの高品質の再構築は依然として課題です。
この問題に対処するために、私たちは OctMAE を提案します。これは、Octree U-Net と潜在 3D MAE を活用して、ローカルとグローバルの両方の幾何学的推論を通じて高品質でほぼリアルタイムのマルチオブジェクト形状の完成を実現するアーキテクチャです。
ナイーブ 3D MAE は、潜在空間であっても計算的に扱いにくく、メモリを大量に消費する可能性があるため、新しいオクルージョン マスキング戦略を導入し、3D 回転埋め込みを採用することで、実行時間と形状完成の品質が大幅に向上します。
多様なシーンの幅広いオブジェクトに一般化するために、Objaverse データセットからの 12K 3D オブジェクト モデルの多様なセットを特徴とする大規模なフォトリアリスティック データセットを作成します。これらのデータセットは、物理ベースの位置決めを使用してマルチオブジェクト シーンにレンダリングされます。
私たちの手法は、合成データセットと現実世界のデータセットの両方で現在の最先端の手法を上回り、強力なゼロショット機能を実証します。
要約(オリジナル)
We present a 3D shape completion method that recovers the complete geometry of multiple objects in complex scenes from a single RGB-D image. Despite notable advancements in single object 3D shape completion, high-quality reconstructions in highly cluttered real-world multi-object scenes remains a challenge. To address this issue, we propose OctMAE, an architecture that leverages an Octree U-Net and a latent 3D MAE to achieve high-quality and near real-time multi-object shape completion through both local and global geometric reasoning. Because a na\’ive 3D MAE can be computationally intractable and memory intensive even in the latent space, we introduce a novel occlusion masking strategy and adopt 3D rotary embeddings, which significantly improves the runtime and shape completion quality. To generalize to a wide range of objects in diverse scenes, we create a large-scale photorealistic dataset, featuring a diverse set of 12K 3D object models from the Objaverse dataset which are rendered in multi-object scenes with physics-based positioning. Our method outperforms the current state-of-the-art on both synthetic and real-world datasets and demonstrates a strong zero-shot capability.
arxiv情報
著者 | Shun Iwase,Katherine Liu,Vitor Guizilini,Adrien Gaidon,Kris Kitani,Rares Ambrus,Sergey Zakharov |
発行日 | 2024-03-21 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google