M-VADER: A Model for Diffusion with Multimodal Context

要約

画像とテキストを任意に組み合わせて出力を指定できる画像生成のための拡散モデル(DM)、M-VADERを紹介する。M-VADERは、画像とテキストの組み合わせや、複数の画像の組み合わせで指定した画像を生成することができることを示す。これまで、テキストプロンプトで出力画像を指定できるDM画像生成アルゴリズムが多数紹介され、成功を収めてきた。これらのモデルの成功に触発され、また、人間が最も重要視する視覚的文脈の要素を記述するために言語が既に開発されているという考えに導かれ、我々は視覚言語モデルと密接に関連する埋め込みモデルを導入する。具体的には、自己回帰型視覚言語モデルMAGMAの構成要素と意味探索のために微調整されたバイアスを組み合わせた130億パラメータのマルチモーダルデコーダ、S-MAGMAを紹介する。

要約(オリジナル)

We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.

arxiv情報

著者 Samuel Weinbach,Marco Bellagente,Constantin Eichenberg,Andrew Dai,Robert Baldock,Souradeep Nanda,Björn Deiseroth,Koen Oostermeijer,Hannah Teufel,Andres Felipe Cruz-Salinas
発行日 2022-12-06 12:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク