MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

拡散に基づく画像生成は大きく進歩したが、被写体駆動型生成と指示に基づく編集は依然として困難である。既存の手法は一般的にこれらを別々に扱い、限られた高品質のデータと乏しい汎化に苦慮している。しかし、どちらのタスクも、入力と出力間の一貫性を維持しながら、複雑な視覚的変化を捉える必要がある。そこで我々は、マルチモーダル命令を用いてタスク表現を標準化する統一フレームワークであるMIGEを提案する。MIGEは、被写体駆動型の生成を白紙のキャンバスへの生成として、指示に基づく編集を既存の画像の修正として扱い、共有された入出力定式化を確立する。MIGEは、自由形式のマルチモーダル命令を統一された視覚言語空間にマッピングする新しいマルチモーダルエンコーダを導入し、特徴融合メカニズムによって視覚的特徴と意味的特徴を統合する。この統合により、両方のタスクの共同トレーニングが可能になり、次の2つの重要な利点が得られる：(1)タスク横断的な強化：共有された視覚表現と意味表現を活用することで、共同トレーニングは、被験者主導の生成と指示に基づく編集の両方において、指示の順守と視覚的一貫性を向上させる。(2)汎化：統一されたフォーマットでの学習により、タスク横断的な知識の伝達が容易になり、MIGEは、指示ベースの被写体駆動型編集を含む、新しい構成タスクへの汎化が可能になります。実験によると、MIGEは主語駆動型生成と命令型編集の両方に優れており、命令型主語駆動型編集という新しいタスクでは最先端を行く。コードとモデルはhttps://github.com/Eureka-Maggie/MIGE。

要約(オリジナル)

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism. This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

arxiv情報

著者	Xueyun Tian,Wei Li,Bingbing Xu,Yige Yuan,Yuanzhuo Wang,Huawei Shen
発行日	2025-03-03 11:33:31+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー