要約
最新の Text-to-Image (T2I) 拡散モデルは、高品質でフォトリアリスティックな画像の生成を可能にし、画像編集に革命をもたらしました。
T2I モデルで編集を実行するための事実上の方法はテキスト命令によるものですが、自然言語と画像の間の複雑な多対多のマッピングのため、このアプローチは簡単ではありません。
この作業では、見本ベースの画像編集、つまり編集内容を見本ペアからコンテンツ画像に転送するタスクに取り組みます。
私たちは、編集された画像の忠実性を確保しながら、テキストと画像の両方のモダリティで編集をキャプチャする、モジュール式で効率的なエンドツーエンドのフレームワークである ReEdit を提案します。
当社は、最先端のベースラインとの広範な比較および主要な設計選択の感度分析を通じて、ReEdit の有効性を検証します。
私たちの結果は、ReEdit が質的にも量的にも一貫して現代のアプローチを上回るパフォーマンスを示していることを示しています。
さらに、ReEdit はタスク固有の最適化を必要とせず、次に優れたベースラインと比較して 4 倍高速であるため、高い実用性を誇ります。
要約(オリジナル)
Modern Text-to-Image (T2I) Diffusion models have revolutionized image editing by enabling the generation of high-quality photorealistic images. While the de facto method for performing edits with T2I models is through text instructions, this approach non-trivial due to the complex many-to-many mapping between natural language and images. In this work, we address exemplar-based image editing — the task of transferring an edit from an exemplar pair to a content image(s). We propose ReEdit, a modular and efficient end-to-end framework that captures edits in both text and image modalities while ensuring the fidelity of the edited image. We validate the effectiveness of ReEdit through extensive comparisons with state-of-the-art baselines and sensitivity analyses of key design choices. Our results demonstrate that ReEdit consistently outperforms contemporary approaches both qualitatively and quantitatively. Additionally, ReEdit boasts high practical applicability, as it does not require any task-specific optimization and is four times faster than the next best baseline.
arxiv情報
著者 | Ashutosh Srivastava,Tarun Ram Menta,Abhinav Java,Avadhoot Jadhav,Silky Singh,Surgan Jandial,Balaji Krishnamurthy |
発行日 | 2024-11-06 15:19:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google