Text-Driven Image Editing via Learnable Regions

要約

言語は画像編集のための自然なインターフェースとして登場してきた。本論文では、ユーザが提供するマスクやスケッチを必要とせず、テキストプロンプトによって駆動される領域ベースの画像編集手法を紹介する。具体的には、本アプローチは、事前に訓練された既存のテキスト画像モデルを活用し、テキストプロンプトに沿った編集領域を特定するためのバウンディングボックスジェネレータを導入する。このシンプルなアプローチにより、現在の画像生成モデルと互換性のある柔軟な編集が可能となり、複数のオブジェクトや複雑な文章、長い段落を含む複雑なプロンプトを扱えることを示す。我々は、最先端の手法と我々の手法を比較するために、広範なユーザー調査を実施した。実験の結果、提供された言語記述に対応する高い忠実度とリアリズムで画像を操作する上で、我々の手法が競争力のある性能を持つことが実証された。私たちのプロジェクトのウェブページはhttps://yuanze-lin.me/LearnableRegions_page。

要約(オリジナル)

Language has emerged as a natural interface for image editing. In this paper, we introduce a method for region-based image editing driven by textual prompts, without the need for user-provided masks or sketches. Specifically, our approach leverages an existing pre-trained text-to-image model and introduces a bounding box generator to identify the editing regions that are aligned with the textual prompts. We show that this simple approach enables flexible editing that is compatible with current image generation models, and is able to handle complex prompts featuring multiple objects, complex sentences, or lengthy paragraphs. We conduct an extensive user study to compare our method against state-of-the-art methods. The experiments demonstrate the competitive performance of our method in manipulating images with high fidelity and realism that correspond to the provided language descriptions. Our project webpage can be found at: https://yuanze-lin.me/LearnableRegions_page.

arxiv情報

著者 Yuanze Lin,Yi-Wen Chen,Yi-Hsuan Tsai,Lu Jiang,Ming-Hsuan Yang
発行日 2024-04-03 15:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク