MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

拡散ベースの画像生成の大幅な進歩にもかかわらず、被験者主導の生成と命令ベースの編集は依然として困難です。
既存の方法は通常、それらを別々に扱い、限られた高品質のデータと貧弱な一般化に苦しんでいます。
ただし、どちらのタスクでも、入力と出力間の一貫性を維持しながら、複雑な視覚的変動をキャプチャする必要があります。
したがって、マルチモーダル命令を使用してタスク表現を標準化する統一されたフレームワークであるMigeを提案します。
それは、主題主導の世代を、空白のキャンバスでの作成として扱い、既存の画像の変更として命令ベースの編集を扱い、共有入出力定式化を確立します。
Migeは、フリーフォームのマルチモーダル命令を統一されたビジョン言語空間にマッピングする新しいマルチモーダルエンコーダーを導入し、機能融合メカニズムを介して視覚的およびセマンティック機能を統合します。この統一は両方のタスクの共同トレーニングを可能にし、2つの重要な利点を提供します。
命令ベースの編集。
（2）一般化：統一された形式での学習により、クロスタスクの知識転送が容易になり、Migeが命令ベースのサブジェクト駆動型編集を含む新しい組成タスクに一般化できます。
実験は、Migeが主題主導の生成と命令ベースの編集の両方で優れていることを示しており、命令ベースの主題主導型編集の新しいタスクで最先端を設定します。
コードとモデルはhttps://github.com/eureka-maggie/migeで公開されています。

要約(オリジナル)

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

arxiv情報

著者	Xueyun Tian,Wei Li,Bingbing Xu,Yige Yuan,Yuanzhuo Wang,Huawei Shen
発行日	2025-02-28 18:21:08+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー