Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation

要約

テキストから画像への生成は、テキストから画像への拡散モデルの導入により大幅に進歩しました。
これらのモデルは通常、ユーザー プロンプトを解釈する言語モデルと、対応する画像を生成する視覚モデルで構成されます。
言語モデルと視覚モデルがそれぞれの領域で進歩し続けるにつれて、テキストから画像への拡散モデルのコンポーネントをより高度な対応物に置き換えることを検討することには大きな可能性があります。
したがって、より広範な研究目標は、テキストから画像への生成のための、関連のない 2 つの言語と生成視覚モデルの統合を調査することになります。
この論文では、この目的を探求し、テキストから画像への生成のためのさまざまな事前トレーニング済み言語モデルと生成視覚モデルの統合を可能にするパイプラインである LaVi-Bridge を提案します。
LoRA とアダプターを活用することで、LaVi-Bridge は、言語モデルとビジョン モデルの元の重みを変更する必要なく、柔軟なプラグアンドプレイ アプローチを提供します。
当社のパイプラインは、さまざまな言語モデルや生成ビジョン モデルと互換性があり、さまざまな構造に対応します。
このフレームワーク内で、より高度な言語モデルや生成ビジョン モデルなどの優れたモジュールを組み込むと、テキストの配置や画像品質などの機能が顕著に向上することを実証します。
LaVi-Bridge の有効性を検証するために広範な評価が実施されました。
コードは https://github.com/ShihaoZhaoZSH/LaVi-Bridge で入手できます。

要約(オリジナル)

Text-to-image generation has made significant advancements with the introduction of text-to-image diffusion models. These models typically consist of a language model that interprets user prompts and a vision model that generates corresponding images. As language and vision models continue to progress in their respective domains, there is a great potential in exploring the replacement of components in text-to-image diffusion models with more advanced counterparts. A broader research objective would therefore be to investigate the integration of any two unrelated language and generative vision models for text-to-image generation. In this paper, we explore this objective and propose LaVi-Bridge, a pipeline that enables the integration of diverse pre-trained language models and generative vision models for text-to-image generation. By leveraging LoRA and adapters, LaVi-Bridge offers a flexible and plug-and-play approach without requiring modifications to the original weights of the language and vision models. Our pipeline is compatible with various language models and generative vision models, accommodating different structures. Within this framework, we demonstrate that incorporating superior modules, such as more advanced language models or generative vision models, results in notable improvements in capabilities like text alignment or image quality. Extensive evaluations have been conducted to verify the effectiveness of LaVi-Bridge. Code is available at https://github.com/ShihaoZhaoZSH/LaVi-Bridge.

arxiv情報

著者 Shihao Zhao,Shaozhe Hao,Bojia Zi,Huaizhe Xu,Kwan-Yee K. Wong
発行日 2024-03-12 17:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク