LASA: Instance Reconstruction from Real Scans using A Large-scale Aligned Shape Annotation Dataset

要約

3D シーンからのインスタンス形状の再構築には、セマンティック インスタンス レベルで複数のオブジェクトの完全なジオメトリを復元することが含まれます。
シーンの複雑さと屋内の重大なオクルージョンの複雑さのため、多くの手法ではデータ駆動型学習が活用されています。
これらの手法をトレーニングするには、多くの場合、実世界のスキャンで位置合わせされ、ペアになった形状アノテーションを備えた大規模で高品質のデータセットが必要になります。
既存のデータセットは合成または不整合であるため、実際のデータに対するデータ駆動型メソッドのパフォーマンスが制限されます。
この目的を達成するために、プロのアーティストによって手動で作成された、ArkitScenes の 920 件の実世界のシーン スキャンと位置合わせされた 10,412 個の高品質 CAD アノテーションで構成される大規模な整列形状アノテーション データセットである LASA を導入します。
この上で、新しい拡散ベースのクロスモーダル形状再構成 (DisCo) 手法を提案します。
ハイブリッド機能集約設計によって強化され、マルチモーダル入力を融合し、高忠実度のオブジェクト ジオメトリを復元します。
さらに、占有ガイド付き 3D オブジェクト検出 (OccGOD) 方法を提示し、形状アノテーションが 3D オブジェクト検出をさらに改善できるシーン占有の手掛かりを提供することを示します。
LASA によるサポートによる広範な実験により、私たちの方法がインスタンス レベルのシーン再構成と 3D オブジェクト検出タスクの両方で最先端のパフォーマンスを達成できることが示されています。

要約(オリジナル)

Instance shape reconstruction from a 3D scene involves recovering the full geometries of multiple objects at the semantic instance level. Many methods leverage data-driven learning due to the intricacies of scene complexity and significant indoor occlusions. Training these methods often requires a large-scale, high-quality dataset with aligned and paired shape annotations with real-world scans. Existing datasets are either synthetic or misaligned, restricting the performance of data-driven methods on real data. To this end, we introduce LASA, a Large-scale Aligned Shape Annotation Dataset comprising 10,412 high-quality CAD annotations aligned with 920 real-world scene scans from ArkitScenes, created manually by professional artists. On this top, we propose a novel Diffusion-based Cross-Modal Shape Reconstruction (DisCo) method. It is empowered by a hybrid feature aggregation design to fuse multi-modal inputs and recover high-fidelity object geometries. Besides, we present an Occupancy-Guided 3D Object Detection (OccGOD) method and demonstrate that our shape annotations provide scene occupancy clues that can further improve 3D object detection. Supported by LASA, extensive experiments show that our methods achieve state-of-the-art performance in both instance-level scene reconstruction and 3D object detection tasks.

arxiv情報

著者 Haolin Liu,Chongjie Ye,Yinyu Nie,Yingfan He,Xiaoguang Han
発行日 2023-12-19 18:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク