HOMER: Homography-Based Efficient Multi-view 3D Object Removal

要約

3Dオブジェクトの削除は、3Dシーンの編集で重要なサブタスクであり、シーンの理解、拡張現実、ロボット工学の幅広いアプリケーションがあります。
ただし、既存の方法は、マルチビュー設定での一貫性、使いやすさ、計算効率の間で望ましいバランスをとるのに苦労しています。
これらの制限は、主に、ソースビューでの直感的でないユーザーの相互作用、非効率的なマルチビューオブジェクトマスク生成、計算上の高価な開始手順、およびさまざまな放射輝度フィールド表現にわたる適用性の欠如によるものです。
これらの課題に対処するために、マルチビューオブジェクトマスクの生成と開始の品質と効率を改善する新しいパイプラインを提案します。
私たちの方法は、ソースビューに直感的な領域ベースの相互作用メカニズムを導入し、カメラのポーズまたは追加のモデルトレーニングの必要性を排除します。
当社の軽量HOMMモジュールは、効率が向上した高品質のマルチビューマスク伝播を実現するために採用されています。
開始段階では、選択したキービューでのみ開始し、ホモグラフィベースのマッピングを介して他のビューに結果を伝播することにより、さらに計算コストを削減します。
私たちのパイプラインは、NERFや3Dガウスのスプラッティングなど、さまざまな輝きフィールドフレームワークと互換性があり、実際のシナリオの一般化と実用性の向上を示しています。
さらに、既存のデータセットよりもオブジェクトの多様性と視点のバリエーションが大きい新しい3Dマルチオブジェクト除去データセットを提示します。
パブリックベンチマークと提案されたデータセットでの実験は、この方法が最先端のパフォーマンスを達成しながら、ランタイムを主要なベースラインで必要とする5分の1に短縮することを示しています。

要約(オリジナル)

3D object removal is an important sub-task in 3D scene editing, with broad applications in scene understanding, augmented reality, and robotics. However, existing methods struggle to achieve a desirable balance among consistency, usability, and computational efficiency in multi-view settings. These limitations are primarily due to unintuitive user interaction in the source view, inefficient multi-view object mask generation, computationally expensive inpainting procedures, and a lack of applicability across different radiance field representations. To address these challenges, we propose a novel pipeline that improves the quality and efficiency of multi-view object mask generation and inpainting. Our method introduces an intuitive region-based interaction mechanism in the source view and eliminates the need for camera poses or extra model training. Our lightweight HoMM module is employed to achieve high-quality multi-view mask propagation with enhanced efficiency. In the inpainting stage, we further reduce computational costs by performing inpainting only on selected key views and propagating the results to other views via homography-based mapping. Our pipeline is compatible with a variety of radiance field frameworks, including NeRF and 3D Gaussian Splatting, demonstrating improved generalizability and practicality in real-world scenarios. Additionally, we present a new 3D multi-object removal dataset with greater object diversity and viewpoint variation than existing datasets. Experiments on public benchmarks and our proposed dataset show that our method achieves state-of-the-art performance while reducing runtime to one-fifth of that required by leading baselines.

arxiv情報

著者 Jingcheng Ni,Weiguang Zhao,Daniel Wang,Ziyao Zeng,Chenyu You,Alex Wong,Kaizhu Huang
発行日 2025-04-14 15:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク