M-VADER: A Model for Diffusion with Multimodal Context

要約

画像とテキストの任意の組み合わせを使用して出力を指定できる、画像生成用の拡散モデル (DM) である M-VADER を紹介します。
M-VADER を使用して、画像とテキストの組み合わせ、および複数の画像の組み合わせを使用して指定された画像を生成する方法を示します。
以前は、テキスト プロンプトを使用して出力イメージを指定できるようにする、多くの成功した DM イメージ生成アルゴリズムが導入されました。
これらのモデルの成功に触発され、言語は人間が最も重要と考える視覚的コンテキストの要素を記述するためにすでに開発されているという考えに導かれて、視覚言語モデルに密接に関連する埋め込みモデルを紹介します。
具体的には、埋め込みモデル S-MAGMA を紹介します。これは、自己回帰視覚言語モデル MAGMA のコンポーネントとセマンティック検索用に微調​​整されたバイアスを組み合わせた 130 億パラメーターのマルチモーダル デコーダーです。

要約(オリジナル)

We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.

arxiv情報

著者 Samuel Weinbach,Marco Bellagente,Constantin Eichenberg,Andrew Dai,Robert Baldock,Souradeep Nanda,Björn Deiseroth,Koen Oostermeijer,Hannah Teufel,Andres Felipe Cruz-Salinas
発行日 2022-12-07 09:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク