3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement

要約

ニューラル レンダリングの進歩にもかかわらず、高品質の 3D データセットの不足とマルチビュー拡散モデルの固有の制限により、ビュー合成と 3D モデルの生成は、マルチビューの一貫性が最適ではない低解像度に制限されています。
この研究では、3DEnhancer と呼ばれる新しい 3D 強化パイプラインを紹介します。これは、マルチビューの潜在拡散モデルを採用して、マルチビューの一貫性を維持しながら粗い 3D 入力を強化します。
私たちの手法には、低品質のマルチビュー画像を改善するための姿勢認識エンコーダと拡散ベースのデノイザーが含まれており、ビュー全体で一貫した高品質の 3D 出力を維持するためのデータ拡張とエピポーラ アグリゲーションを備えたマルチビュー アテンション モジュールも含まれています。
既存のビデオベースのアプローチとは異なり、当社のモデルは、さまざまな視野角にわたって一貫性が向上し、シームレスなマルチビュー強化をサポートします。
広範な評価により、3DEnhancer は既存の方法よりも大幅に優れたパフォーマンスを示し、マルチビューの強化とインスタンスごとの 3D 最適化タスクの両方を向上させることが示されています。

要約(オリジナル)

Despite advances in neural rendering, due to the scarcity of high-quality 3D datasets and the inherent limitations of multi-view diffusion models, view synthesis and 3D model generation are restricted to low resolutions with suboptimal multi-view consistency. In this study, we present a novel 3D enhancement pipeline, dubbed 3DEnhancer, which employs a multi-view latent diffusion model to enhance coarse 3D inputs while preserving multi-view consistency. Our method includes a pose-aware encoder and a diffusion-based denoiser to refine low-quality multi-view images, along with data augmentation and a multi-view attention module with epipolar aggregation to maintain consistent, high-quality 3D outputs across views. Unlike existing video-based approaches, our model supports seamless multi-view enhancement with improved coherence across diverse viewing angles. Extensive evaluations show that 3DEnhancer significantly outperforms existing methods, boosting both multi-view enhancement and per-instance 3D optimization tasks.

arxiv情報

著者 Yihang Luo,Shangchen Zhou,Yushi Lan,Xingang Pan,Chen Change Loy
発行日 2024-12-24 17:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク