Leveraging LLMs for On-the-Fly Instruction Guided Image Editing

要約

言語処理と画像処理の組み合わせは、両方の研究領域の強みを組み合わせた最近の目覚ましい進歩により、ますます関心を集め続けています。
これらの進歩の中でも、自然言語命令のみに基づいて画像を編集する作業は、最も困難な取り組みとして際立っています。
このタスクに対する最近のアプローチは、何らかの形で事前準備、トレーニング、または微調整に頼っていますが、この論文では新しいアプローチを検討しています。
飛ぶ。
このアプローチは、画像キャプションと DDIM 反転に頼る適切に調整された 3 つのステップに沿って構成されており、その後、編集方向の埋め込みを取得し、その後、画像を適切に編集します。
事前準備を不要にしながら、私たちのアプローチは効果的で競争力があり、MAGICBRUSH データセットで評価した場合、このタスクの最近の最先端モデルを上回るパフォーマンスを示します。

要約(オリジナル)

The combination of language processing and image processing keeps attracting increased interest given recent impressive advances that leverage the combined strengths of both domains of research. Among these advances, the task of editing an image on the basis solely of a natural language instruction stands out as a most challenging endeavour. While recent approaches for this task resort, in one way or other, to some form of preliminary preparation, training or fine-tuning, this paper explores a novel approach: We propose a preparation-free method that permits instruction-guided image editing on the fly. This approach is organized along three steps properly orchestrated that resort to image captioning and DDIM inversion, followed by obtaining the edit direction embedding, followed by image editing proper. While dispensing with preliminary preparation, our approach demonstrates to be effective and competitive, outperforming recent, state of the art models for this task when evaluated on the MAGICBRUSH dataset.

arxiv情報

著者 Rodrigo Santos,João Silva,António Branco
発行日 2024-12-04 10:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク