要約
編集タスクで元のプロンプトとターゲット プロンプトを比較すると、それぞれがオブジェクトとそれに対応する編集ターゲットで構成される多数の編集ペアを取得できます。
入力画像への忠実度を維持しながら編集可能にするために、既存の編集方法には通常、入力画像全体をノイズの多い潜在表現に投影する固定数の反転ステップが含まれ、その後、ターゲット プロンプトによってガイドされるノイズ除去プロセスが実行されます。
ただし、理想的な編集結果を達成するための最適な反転ステップ数は、編集の難易度が異なるため、編集ペアによって大きく異なることがわかりました。
したがって、固定数の反転ステップに依存する現在の文献では、特に自然画像で複数の編集ペアを処理する場合、最適とは言えない生成品質が生成されます。
この目的を達成するために、オブジェクトレベルのきめ細かい編集を可能にする、オブジェクト認識反転および再構成 (OIR) と呼ばれる新しい画像編集パラダイムを提案します。
具体的には、ターゲットの編集可能性と非編集領域の忠実度を組み合わせて考慮することにより、各編集ペアの最適な反転ステップを決定する新しい検索メトリックを設計します。
画像を編集するときに、検索メトリックを使用して、各編集ペアに最適な反転ステップを見つけます。
次に、コンセプトの不一致を避けるために、これらの編集ペアを個別に編集します。
続いて、それぞれの編集結果と非編集領域をシームレスに統合して最終的な編集画像を取得するための追加の再組み立てステップを提案します。
私たちの方法の有効性を体系的に評価するために、単一オブジェクト編集と複数オブジェクト編集のベンチマークをそれぞれ行うための 2 つのデータセットを収集します。
実験により、私たちの方法は、特に複数オブジェクトの編集シナリオにおいて、オブジェクトの形状、色、マテリアル、カテゴリなどの編集において優れたパフォーマンスを達成できることが実証されています。
要約(オリジナル)
By comparing the original and target prompts in editing task, we can obtain numerous editing pairs, each comprising an object and its corresponding editing target. To allow editability while maintaining fidelity to the input image, existing editing methods typically involve a fixed number of inversion steps that project the whole input image to its noisier latent representation, followed by a denoising process guided by the target prompt. However, we find that the optimal number of inversion steps for achieving ideal editing results varies significantly among different editing pairs, owing to varying editing difficulties. Therefore, the current literature, which relies on a fixed number of inversion steps, produces sub-optimal generation quality, especially when handling multiple editing pairs in a natural image. To this end, we propose a new image editing paradigm, dubbed Object-aware Inversion and Reassembly (OIR), to enable object-level fine-grained editing. Specifically, we design a new search metric, which determines the optimal inversion steps for each editing pair, by jointly considering the editability of the target and the fidelity of the non-editing region. We use our search metric to find the optimal inversion step for each editing pair when editing an image. We then edit these editing pairs separately to avoid concept mismatch. Subsequently, we propose an additional reassembly step to seamlessly integrate the respective editing results and the non-editing region to obtain the final edited image. To systematically evaluate the effectiveness of our method, we collect two datasets for benchmarking single- and multi-object editing, respectively. Experiments demonstrate that our method achieves superior performance in editing object shapes, colors, materials, categories, etc., especially in multi-object editing scenarios.
arxiv情報
著者 | Zhen Yang,Dinggang Gui,Wen Wang,Hao Chen,Bohan Zhuang,Chunhua Shen |
発行日 | 2023-10-18 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google