要約
単一のソース画像に基づいて任意のビューからリアルな画像を生成することは、電子商取引から没入型の仮想体験に至る幅広いアプリケーションを伴うコンピュータ ビジョンにおいて依然として大きな課題です。
拡散モデル、特に Zero-1-to-3 モデルの最近の進歩は、妥当なビュー、ビデオ、および 3D モデルを生成するために広く採用されています。
しかし、これらのモデルは、特に視点の困難な変更の場合、新しいビューの生成における矛盾や不合理性と依然として闘っています。
この研究では、Zero-1-to-3 のノイズ除去プロセス中にアテンション マップを操作することでビュー合成を強化する、新しいテスト時アプローチである Zero-to-Hero を提案します。
ノイズ除去プロセスと確率的勾配降下法 (SGD) を類似させることで、アテンション マップを集約するフィルタリング メカニズムを実装し、生成の信頼性と信頼性を強化します。
このプロセスにより、再トレーニングや大量の計算リソースを必要とせずに、幾何学的一貫性が向上します。
さらに、セルフ アテンション メカニズムを変更してソース ビューからの情報を統合し、形状の歪みを軽減します。
これらのプロセスは、特殊なサンプリング スケジュールによってさらにサポートされます。
実験結果は、配布外のオブジェクトのさまざまなセットで検証され、忠実性と一貫性が大幅に向上していることを示しています。
さらに、マルチビューでの Zero-to-Hero の一般的な適用性と有効性、およびセマンティック マップとポーズに条件付けされた画像生成を実証します。
要約(オリジナル)
Generating realistic images from arbitrary views based on a single source image remains a significant challenge in computer vision, with broad applications ranging from e-commerce to immersive virtual experiences. Recent advancements in diffusion models, particularly the Zero-1-to-3 model, have been widely adopted for generating plausible views, videos, and 3D models. However, these models still struggle with inconsistencies and implausibility in new views generation, especially for challenging changes in viewpoint. In this work, we propose Zero-to-Hero, a novel test-time approach that enhances view synthesis by manipulating attention maps during the denoising process of Zero-1-to-3. By drawing an analogy between the denoising process and stochastic gradient descent (SGD), we implement a filtering mechanism that aggregates attention maps, enhancing generation reliability and authenticity. This process improves geometric consistency without requiring retraining or significant computational resources. Additionally, we modify the self-attention mechanism to integrate information from the source view, reducing shape distortions. These processes are further supported by a specialized sampling schedule. Experimental results demonstrate substantial improvements in fidelity and consistency, validated on a diverse set of out-of-distribution objects. Additionally, we demonstrate the general applicability and effectiveness of Zero-to-Hero in multi-view, and image generation conditioned on semantic maps and pose.
arxiv情報
著者 | Ido Sobol,Chenfeng Xu,Or Litany |
発行日 | 2024-10-24 12:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google