SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing

要約

シーン グラフは、オブジェクトとそれらの間の関係を象徴するノードとエッジを使用して、イメージの構造化された階層表現を提供します。
画像編集の自然なインターフェイスとして機能し、精度と柔軟性が大幅に向上します。
この利点を活用して、シーン グラフ ベースの画像編集のための大規模言語モデル (LLM) と Text2Image 生成モデルを統合する新しいフレームワークを導入します。
この統合により、全体的な画像の完全性を損なうことなく、オブジェクト レベルでの正確な変更と、シーンの創造的な再構成が可能になります。
私たちのアプローチには 2 つの主要な段階が含まれます。 1) LLM 駆動のシーン パーサーを利用して、画像のシーン グラフを構築し、主要なオブジェクトとその相互関係をキャプチャし、オブジェクト マスクや説明などのきめ細かい属性を解析します。
これらのアノテーションは、最適化されたトークンと詳細な説明プロンプトで各オブジェクトを表す、微調整された拡散モデルによる概念の学習を促進します。
2) 画像編集段階では、LLM 編集コントローラが特定の領域に向けて編集をガイドします。
これらの編集は、微調整されたモデルを利用してオブジェクトの追加、削除、置換、調整を実行するアテンション変調拡散エディタによって実装されます。
広範な実験を通じて、私たちのフレームワークが編集精度とシーンの美しさの点で既存の画像編集方法を大幅に上回ることを実証しました。

要約(オリジナル)

Scene graphs offer a structured, hierarchical representation of images, with nodes and edges symbolizing objects and the relationships among them. It can serve as a natural interface for image editing, dramatically improving precision and flexibility. Leveraging this benefit, we introduce a new framework that integrates large language model (LLM) with Text2Image generative model for scene graph-based image editing. This integration enables precise modifications at the object level and creative recomposition of scenes without compromising overall image integrity. Our approach involves two primary stages: 1) Utilizing a LLM-driven scene parser, we construct an image’s scene graph, capturing key objects and their interrelationships, as well as parsing fine-grained attributes such as object masks and descriptions. These annotations facilitate concept learning with a fine-tuned diffusion model, representing each object with an optimized token and detailed description prompt. 2) During the image editing phase, a LLM editing controller guides the edits towards specific areas. These edits are then implemented by an attention-modulated diffusion editor, utilizing the fine-tuned model to perform object additions, deletions, replacements, and adjustments. Through extensive experiments, we demonstrate that our framework significantly outperforms existing image editing methods in terms of editing precision and scene aesthetics.

arxiv情報

著者 Zhiyuan Zhang,DongDong Chen,Jing Liao
発行日 2024-10-15 17:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク