要約
テキストから画像への拡散モデルは、強力な画像編集機能を提供します。
実際の画像を編集するために、多くの方法がイメージの反転に依存してガウスノイズに依存しています。
画像を反転する一般的なアプローチは、サンプリング方程式を逆にすることでノイズが決定される画像に徐々にノイズを追加することです。
このプロセスには、再構築と編集可能性の間に固有のトレードオフがあり、高度に表現された画像などの挑戦的な画像の編集が制限されています。
テキスト条件でのテキストから画像へのモデルの反転の依存を認識して、この作業は状態の選択の重要性を探ります。
入力画像と正確に整合する条件が反転の品質を大幅に改善することを示します。
調査結果に基づいて、最も可能な正確な条件である入力画像自体を利用する反転法であるTight Inversionを紹介します。
このタイトな状態は、モデルの出力の分布を狭め、再構築と編集可能性の両方を強化します。
広範な実験を通じて既存の反転法と組み合わせると、再構成の精度とさまざまな編集方法との統合を評価する場合、アプローチの有効性を実証します。
要約(オリジナル)
Text-to-image diffusion models offer powerful image editing capabilities. To edit real images, many methods rely on the inversion of the image into Gaussian noise. A common approach to invert an image is to gradually add noise to the image, where the noise is determined by reversing the sampling equation. This process has an inherent tradeoff between reconstruction and editability, limiting the editing of challenging images such as highly-detailed ones. Recognizing the reliance of text-to-image models inversion on a text condition, this work explores the importance of the condition choice. We show that a condition that precisely aligns with the input image significantly improves the inversion quality. Based on our findings, we introduce Tight Inversion, an inversion method that utilizes the most possible precise condition — the input image itself. This tight condition narrows the distribution of the model’s output and enhances both reconstruction and editability. We demonstrate the effectiveness of our approach when combined with existing inversion methods through extensive experiments, evaluating the reconstruction accuracy as well as the integration with various editing methods.
arxiv情報
著者 | Edo Kadosh,Nir Goren,Or Patashnik,Daniel Garibi,Daniel Cohen-Or |
発行日 | 2025-02-27 18:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google