Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing

要約

テキストベースの編集普及モデルは、ユーザーの入力指示があいまいな場合、パフォーマンスが制限されます。
この問題を解決するために、拡散ベースの編集システム用のゼロショット推論パイプラインである $\textit{Specify ANd Edit}$ (SANE) を提案します。
大規模言語モデル (LLM) を使用して、入力命令を特定の命令、つまりユーザーの要求を満たすために入力画像に適用する明確に定義された介入に分解します。
タスク用に特別に設計された新しいノイズ除去ガイダンス戦略のおかげで、元の命令に沿った LLM 派生の命令の恩恵を受けることができます。
3 つのベースラインと 2 つのデータセットを使用した実験では、すべてのセットアップにおける SANE の利点を実証しています。
さらに、私たちのパイプラインはモデル編集の解釈可能性を向上させ、出力の多様性を高めます。
また、曖昧かどうかにかかわらず、私たちのアプローチがあらゆる編集に適用できることも示します。
私たちのコードは https://github.com/fabvio/SANE で公開されています。

要約(オリジナル)

Text-based editing diffusion models exhibit limited performance when the user’s input instruction is ambiguous. To solve this problem, we propose $\textit{Specify ANd Edit}$ (SANE), a zero-shot inference pipeline for diffusion-based editing systems. We use a large language model (LLM) to decompose the input instruction into specific instructions, i.e. well-defined interventions to apply to the input image to satisfy the user’s request. We benefit from the LLM-derived instructions along the original one, thanks to a novel denoising guidance strategy specifically designed for the task. Our experiments with three baselines and on two datasets demonstrate the benefits of SANE in all setups. Moreover, our pipeline improves the interpretability of editing models, and boosts the output diversity. We also demonstrate that our approach can be applied to any edit, whether ambiguous or not. Our code is public at https://github.com/fabvio/SANE.

arxiv情報

著者 Ekaterina Iakovleva,Fabio Pizzati,Philip Torr,Stéphane Lathuilière
発行日 2024-07-29 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク