Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting

要約

タイトル:Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting

要約:
– テキストでガイドされた画像編集は、創造的なアプリケーションをサポートする上で大きな影響を持つ可能性がある。
– 入力テキストの指示に忠実で、かつ入力画像と整合性のある編集を生成することは、重要な課題である。
– Imagen Editorは、テキストでガイドされた画像のインペイントにfine-tuningされたImagenモデルを使用した、カスケード拡散モデルである。
– Imagen Editorの編集は、トレーニング中にインペイントマスクを提案するオブジェクト検出器を使用することによって、テキストプロンプトに忠実である。
– さらに、Imagen Editorは、カスケードパイプラインを元の高解像度画像に条件付けることによって、入力画像の細かいディテールを捉える。
– 質的および量的評価を改善するために、テキストでガイドされた画像のインペイントのためのシステマチックなベンチマークであるEditBenchを紹介する。
– EditBenchは、オブジェクト、属性、およびシーンを探索する自然なおよび生成された画像でインペイント編集を評価する。
– EditBenchの広範な人間評価により、トレーニング中のオブジェクトマスキングがテキスト画像の整合性向上につながり、Imagen EditorがDALL-E 2およびStable Diffusionより優れており、また、このモデル群は、テキストレンダリングよりもオブジェクトレンダリングが優れており、マテリアル/カラー/サイズ属性については、カウント/シェイプ属性よりも良好な処理ができることがわかった。

要約(オリジナル)

Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor’s edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment — such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion — and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes.

arxiv情報

著者 Su Wang,Chitwan Saharia,Ceslee Montgomery,Jordi Pont-Tuset,Shai Noy,Stefano Pellegrini,Yasumasa Onoe,Sarah Laszlo,David J. Fleet,Radu Soricut,Jason Baldridge,Mohammad Norouzi,Peter Anderson,William Chan
発行日 2023-04-12 22:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク