要約
複雑なシーンで 1 つの RGB 画像から 3D オブジェクトを正確に再構成することは、仮想現実、自動運転、ロボット工学において重大な課題となります。
既存のニューラル暗黙的 3D 表現手法は、特に多様で複雑な環境において、グローバルな特徴とローカルな特徴の抽出のバランスをとるという大きな困難に直面しており、再構成の精度と品質が不十分になります。
私たちは、これらの課題に取り組むために、新しい単一ビュー 3D 再構成フレームワークである M3D を提案します。
このフレームワークは、選択的状態空間に基づくデュアル ストリーム特徴抽出戦略を採用し、グローバル特徴とローカル特徴の抽出のバランスを効果的にとることにより、シーンの理解と表現の精度を向上させます。
さらに、平行ブランチが奥行き情報を抽出し、視覚的特徴と幾何学的特徴を効果的に統合して、再構築の品質を高め、複雑な詳細を保存します。
実験結果は、デュアルブランチ特徴抽出によるマルチスケール特徴と深さ情報の融合により、幾何学的一貫性と忠実度が大幅に向上し、最先端の再構成パフォーマンスが達成されることを示しています。
要約(オリジナル)
The precise reconstruction of 3D objects from a single RGB image in complex scenes presents a critical challenge in virtual reality, autonomous driving, and robotics. Existing neural implicit 3D representation methods face significant difficulties in balancing the extraction of global and local features, particularly in diverse and complex environments, leading to insufficient reconstruction precision and quality. We propose M3D, a novel single-view 3D reconstruction framework, to tackle these challenges. This framework adopts a dual-stream feature extraction strategy based on Selective State Spaces to effectively balance the extraction of global and local features, thereby improving scene comprehension and representation precision. Additionally, a parallel branch extracts depth information, effectively integrating visual and geometric features to enhance reconstruction quality and preserve intricate details. Experimental results indicate that the fusion of multi-scale features with depth information via the dual-branch feature extraction significantly boosts geometric consistency and fidelity, achieving state-of-the-art reconstruction performance.
arxiv情報
著者 | Luoxi Zhang,Pragyan Shrestha,Yu Zhou,Chun Xie,Itaru Kitahara |
発行日 | 2024-11-20 12:54:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google