Consolidating Attention Features for Multi-view Image Editing

要約

大規模なテキストから画像へのモデルにより、テキスト プロンプトや空間コントロールを使用した幅広い画像編集テクニックが可能になります。
ただし、これらの編集方法を 1 つのシーンを描写するマルチビュー画像に適用すると、3D の一貫性のない結果が生じます。
この研究では、空間制御ベースの幾何学的操作に焦点を当て、さまざまなビューにわたる編集プロセスを統合する方法を紹介します。
私たちは 2 つの洞察に基づいて構築しています。(1) 生成プロセス全体で一貫した特徴を維持することは、マルチビュー編集の一貫性を達成するのに役立ちます。(2) セルフ アテンション レイヤーのクエリは画像構造に大きな影響を与えます。
したがって、クエリの一貫性を強化することで、編集された画像の幾何学的一貫性を向上させることを提案します。
これを行うために、編集された画像の内部クエリ特徴に基づいてトレーニングされた神経放射フィールドである QNeRF を導入します。
トレーニングが完了すると、QNeRF は 3D 一貫性のあるクエリをレンダリングでき、生成中にセルフ アテンション レイヤーにソフトに注入され、マルチビューの一貫性が大幅に向上します。
私たちは、拡散タイムステップ全体でクエリをより適切に統合する、漸進的で反復的な方法を通じてプロセスを改良しました。
私たちは、私たちの方法をさまざまな既存の技術と比較し、それがより優れたマルチビューの一貫性と入力シーンへのより高い忠実度を達成できることを実証します。
これらの利点により、視覚的なアーティファクトが少なく、ターゲットのジオメトリとよりよく一致する NeRF をトレーニングできるようになります。

要約(オリジナル)

Large-scale text-to-image models enable a wide range of image editing techniques, using text prompts or even spatial controls. However, applying these editing methods to multi-view images depicting a single scene leads to 3D-inconsistent results. In this work, we focus on spatial control-based geometric manipulations and introduce a method to consolidate the editing process across various views. We build on two insights: (1) maintaining consistent features throughout the generative process helps attain consistency in multi-view editing, and (2) the queries in self-attention layers significantly influence the image structure. Hence, we propose to improve the geometric consistency of the edited images by enforcing the consistency of the queries. To do so, we introduce QNeRF, a neural radiance field trained on the internal query features of the edited images. Once trained, QNeRF can render 3D-consistent queries, which are then softly injected back into the self-attention layers during generation, greatly improving multi-view consistency. We refine the process through a progressive, iterative method that better consolidates queries across the diffusion timesteps. We compare our method to a range of existing techniques and demonstrate that it can achieve better multi-view consistency and higher fidelity to the input scene. These advantages allow us to train NeRFs with fewer visual artifacts, that are better aligned with the target geometry.

arxiv情報

著者 Or Patashnik,Rinon Gal,Daniel Cohen-Or,Jun-Yan Zhu,Fernando De la Torre
発行日 2024-02-22 18:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク