Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training

要約

大規模な拡散モデルは、単一の画像からの新規ビューの合成における顕著なゼロショット機能を示しています。
ただし、これらのモデルは、新しいモデルと参照ビュー全体で一貫性を維持する上で課題に直面することがよくあります。
この問題につながる重要な要因は、参照ビューからのコンテキスト情報の限られた利用です。
具体的には、2つのビューの間に視聴力に重複がある場合、対応する領域がジオメトリと外観の両方で一貫性を維持することが不可欠です。
この観察結果は、シンプルでありながら効果的なアプローチにつながります。このアプローチでは、エピポラージオメトリを使用して、入力ビューから重複した情報を見つけて取得することを提案します。
この情報は、ターゲットビューの生成に組み込まれ、プロセスには学習可能なパラメーターが必要ないため、トレーニングまたは微調整の必要性を排除します。
さらに、生成されたビューの全体的な一貫性を高めるために、エピポーラの注意の使用率をマルチビュー設定に拡張し、入力ビューやその他のターゲットビューからのオーバーラップ情報の取得を可能にします。
定性的および定量的な実験結果は、微調整を必要とせずに合成されたビューの一貫性を大幅に改善する際の方法の有効性を示しています。
さらに、この強化は、3D再構成などのダウンストリームアプリケーションのパフォーマンスも向上します。
このコードは、https://github.com/botaoye/consissynで入手できます。

要約(オリジナル)

Large diffusion models demonstrate remarkable zero-shot capabilities in novel view synthesis from a single image. However, these models often face challenges in maintaining consistency across novel and reference views. A crucial factor leading to this issue is the limited utilization of contextual information from reference views. Specifically, when there is an overlap in the viewing frustum between two views, it is essential to ensure that the corresponding regions maintain consistency in both geometry and appearance. This observation leads to a simple yet effective approach, where we propose to use epipolar geometry to locate and retrieve overlapping information from the input view. This information is then incorporated into the generation of target views, eliminating the need for training or fine-tuning, as the process requires no learnable parameters. Furthermore, to enhance the overall consistency of generated views, we extend the utilization of epipolar attention to a multi-view setting, allowing retrieval of overlapping information from the input view and other target views. Qualitative and quantitative experimental results demonstrate the effectiveness of our method in significantly improving the consistency of synthesized views without the need for any fine-tuning. Moreover, This enhancement also boosts the performance of downstream applications such as 3D reconstruction. The code is available at https://github.com/botaoye/ConsisSyn.

arxiv情報

著者 Botao Ye,Sifei Liu,Xueting Li,Marc Pollefeys,Ming-Hsuan Yang
発行日 2025-02-25 14:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク