FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing

要約

Vision Large Language Model (VLLM) と拡散モデルを組み合わせると、人間の言語命令に基づいて画像編集タスクを実行する強力な方法が提供されます。
ただし、言語指示だけでは、特にユーザーが画像の特定の領域に要素を追加したり置き換えたりしたい場合に、ユーザーの要件を正確に伝えるには不十分なことがよくあります。
幸いなことに、マスクは編集する正確な位置や要素を効果的に示すことができますが、ユーザーは目的の位置に形状を正確に描画する必要があり、非常に使いにくいものです。
これに対処するために、自由形状マスクと柔軟な編集のための言語命令の両方を活用するエンドツーエンドの画像編集方法である FlexEdit を提案します。
私たちのアプローチでは、画像コンテンツ、マスク、ユーザー指示を理解する際に VLLM を採用しています。
さらに、VLLM のエンベディングと画像データを融合するマスク エンハンス アダプター (MEA) を導入し、マスク情報とモデル出力エンベディングのシームレスな統合を保証します。
さらに、8種類の自由形状マスクを含む自由形状マスクに特化したベンチマークFSMI-Editを構築します。
広範な実験により、私たちの方法が LLM ベースの画像編集において最先端 (SOTA) のパフォーマンスを達成し、私たちの単純なプロンプト技術がその有効性において際立っていることが示されました。
コードとデータは https://github.com/A-new-b/flex_edit にあります。

要約(オリジナル)

Combining Vision Large Language Models (VLLMs) with diffusion models offers a powerful method for executing image editing tasks based on human language instructions. However, language instructions alone often fall short in accurately conveying user requirements, particularly when users want to add, replace elements in specific areas of an image. Luckily, masks can effectively indicate the exact locations or elements to be edited, while they require users to precisely draw the shapes at the desired locations, which is highly user-unfriendly. To address this, we propose FlexEdit, an end-to-end image editing method that leverages both free-shape masks and language instructions for Flexible Editing. Our approach employs a VLLM in comprehending the image content, mask, and user instructions. Additionally, we introduce the Mask Enhance Adapter (MEA) that fuses the embeddings of the VLLM with the image data, ensuring a seamless integration of mask information and model output embeddings. Furthermore, we construct FSMI-Edit, a benchmark specifically tailored for free-shape mask, including 8 types of free-shape mask. Extensive experiments show that our method achieves state-of-the-art (SOTA) performance in LLM-based image editing, and our simple prompting technique stands out in its effectiveness. The code and data can be found at https://github.com/A-new-b/flex_edit.

arxiv情報

著者 Jue Wang,Yuxiang Lin,Tianshuo Yuan,Zhi-Qi Cheng,Xiaolong Wang,Jiao GH,Wei Chen,Xiaojiang Peng
発行日 2024-08-22 14:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク