Making Multimodal Generation Easier: When Diffusion Models Meet LLMs

要約

拡散モデルと大規模言語モデル (LLM) の機能を活用することで、マルチモーダルな理解と生成を強化するように設計された効率的なモデルである EasyGen を紹介します。
主に CLIP や ImageBind などのエンコーダに依存し、モダリティ間のギャップを埋めるために十分な量のトレーニング データを必要とする既存のマルチモーダル モデルとは異なり、EasyGen は、モダリティ間のより効率的な相互作用を促進する BiDiffuser という双方向の条件付き拡散モデルに基づいて構築されています。
EasyGen は、単純な投影レイヤーを介して BiDiffuser と LLM を統合することにより、画像からテキストへの生成を処理します。
テキスト応答の生成に限定されているほとんどの既存のマルチモーダル モデルとは異なり、EasyGen は、LLM を活用してテキスト説明を作成することにより、テキストから画像への生成を容易にすることもできます。テキスト説明は、BiDiffuser によって解釈されて、適切な視覚応答を生成できます。
広範な定量的および定性的実験により、EasyGen の有効性が実証されており、そのトレーニングは研究室環境で簡単に達成できます。
ソース コードは https://github.com/zxy556677/EasyGen で入手できます。

要約(オリジナル)

We present EasyGen, an efficient model designed to enhance multimodal understanding and generation by harnessing the capabilities of diffusion models and large language models (LLMs). Unlike existing multimodal models that predominately depend on encoders like CLIP or ImageBind and need ample amounts of training data to bridge the gap between modalities, EasyGen is built upon a bidirectional conditional diffusion model named BiDiffuser, which promotes more efficient interactions between modalities. EasyGen handles image-to-text generation by integrating BiDiffuser and an LLM via a simple projection layer. Unlike most existing multimodal models that are limited to generating text responses, EasyGen can also facilitate text-to-image generation by leveraging the LLM to create textual descriptions, which can be interpreted by BiDiffuser to generate appropriate visual responses. Extensive quantitative and qualitative experiments demonstrate the effectiveness of EasyGen, whose training can be easily achieved in a lab setting. The source code is available at https://github.com/zxy556677/EasyGen.

arxiv情報

著者 Xiangyu Zhao,Bo Liu,Qijiong Liu,Guangyuan Shi,Xiao-Ming Wu
発行日 2023-10-13 08:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク