MAGVLT: Masked Generative Vision-and-Language Transformer

要約

マルチモーダルな画像とテキスト データの生成モデリングは、大規模なペア データセットを使用して積極的に開発されてきましたが、他のモダリティを条件とする 1 つの固定モダリティの生成ではなく、単一のモデルによって画像とテキスト データの両方を生成する試みは限られていました。
この論文では、画像とテキスト シーケンスの両方を生成できる、統一された生成的視覚言語 (VL) モデルについて説明します。
特に、MAGVLT と名付けられた非自己回帰マスク予測に基づく生成 VL 変換器を提案し、それを自己回帰生成 VL 変換器 (ARGVLT) と比較します。
ARGVLT と比較して、提案された MAGVLT は、双方向のコンテキスト エンコーディング、反復改良における並列トークン予測による高速デコード、および画像やテキストの埋め込みなどの拡張編集機能を可能にします。
画像とテキストのペアを使用して MAGVLT を最初から厳密にトレーニングするために、画像からテキスト、テキストから画像、および画像とテキストのマスク予測タスクを組み合わせます。
さらに、ステップ アンロール マスク予測と、2 つの画像とテキストのペアの混合に対する選択的予測に基づいて、2 つの追加タスクを考案します。
VL ベンチマークのさまざまなダウンストリーム生成タスクに関する実験結果は、推論が大幅に高速化されていても、MAGVLT が ARGVLT よりも大幅に優れていることを示しています。
特に、MAGVLT は、モノモーダル データとネットワークを使用しなくても、MS-COCO からのゼロ ショットの画像からテキストへの生成タスクとテキストから画像への生成タスクの両方で、1 つの中規模モデル (5 億パラメーター未満) によって競争力のある結果を達成します。

要約(オリジナル)

While generative modeling on multimodal image-text data has been actively developed with large-scale paired datasets, there have been limited attempts to generate both image and text data by a single model rather than a generation of one fixed modality conditioned on the other modality. In this paper, we explore a unified generative vision-and-language (VL) model that can produce both images and text sequences. Especially, we propose a generative VL transformer based on the non-autoregressive mask prediction, named MAGVLT, and compare it with an autoregressive generative VL transformer (ARGVLT). In comparison to ARGVLT, the proposed MAGVLT enables bidirectional context encoding, fast decoding by parallel token predictions in an iterative refinement, and extended editing capabilities such as image and text infilling. For rigorous training of our MAGVLT with image-text pairs from scratch, we combine the image-to-text, text-to-image, and joint image-and-text mask prediction tasks. Moreover, we devise two additional tasks based on the step-unrolled mask prediction and the selective prediction on the mixture of two image-text pairs. Experimental results on various downstream generation tasks of VL benchmarks show that our MAGVLT outperforms ARGVLT by a large margin even with significant inference speedup. Particularly, MAGVLT achieves competitive results on both zero-shot image-to-text and text-to-image generation tasks from MS-COCO by one moderate-sized model (fewer than 500M parameters) even without the use of monomodal data and networks.

arxiv情報

著者 Sungwoong Kim,Daejin Jo,Donghoon Lee,Jongmin Kim
発行日 2023-03-21 21:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク