Transfer between Modalities with MetaQueries

要約

統一されたマルチモーダルモデルは、理解(テキスト出力)と生成(ピクセル出力)を統合することを目的としていますが、単一のアーキテクチャ内のこれらの異なるモダリティを調整するには、複雑なトレーニングレシピと慎重なデータバランスが必要になることがよくあります。
自己回帰マルチモーダルLLMS(MLLMS)と拡散モデルの間の効率的なインターフェイスとして機能する一連の学習可能なクエリのセットであるMetaqueriesを紹介します。
Metaqueriesは、MLLMの潜在性を拡散デコーダーに接続し、MLLMの深い理解と推論能力を活用することにより、知識を高める画像生成を可能にします。
私たちの方法はトレーニングを簡素化し、ペアの画像キャプションデータと標準拡散目標のみを必要とします。
特に、この転送は、MLLMバックボーンが凍結されたままであっても効果的であり、それによって最先端のマルチモーダル理解機能を維持しながら、強力な生成パフォーマンスを達成します。
さらに、この方法は柔軟性があり、画像編集やサブジェクト駆動型の生成などの高度なアプリケーションのために簡単に指示することができます。

要約(オリジナル)

Unified multimodal models aim to integrate understanding (text output) and generation (pixel output), but aligning these different modalities within a single architecture often demands complex training recipes and careful data balancing. We introduce MetaQueries, a set of learnable queries that act as an efficient interface between autoregressive multimodal LLMs (MLLMs) and diffusion models. MetaQueries connects the MLLM’s latents to the diffusion decoder, enabling knowledge-augmented image generation by leveraging the MLLM’s deep understanding and reasoning capabilities. Our method simplifies training, requiring only paired image-caption data and standard diffusion objectives. Notably, this transfer is effective even when the MLLM backbone remains frozen, thereby preserving its state-of-the-art multimodal understanding capabilities while achieving strong generative performance. Additionally, our method is flexible and can be easily instruction-tuned for advanced applications such as image editing and subject-driven generation.

arxiv情報

著者 Xichen Pan,Satya Narayan Shukla,Aashu Singh,Zhuokai Zhao,Shlok Kumar Mishra,Jialiang Wang,Zhiyang Xu,Jiuhai Chen,Kunpeng Li,Felix Juefei-Xu,Ji Hou,Saining Xie
発行日 2025-04-08 17:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク