VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

要約

この研究では、視覚データと言語データを同時に認識して生成することに熟達した変換モデルである、Vision-Language Generative Pre-trained Transformer (VL-GPT) を紹介します。
VL-GPT は、直接的な自動回帰目標を採用することで、画像とテキストの両方のモダリティに対する統合された事前トレーニング アプローチを実現します。これにより、言語モデルがテキストを処理するのと同じくらいシームレスにモデルが画像とテキストを処理できるようになります。
これを達成するために、私たちは最初に、生の画像を一連の連続的な埋め込みに変換し、それに応じて再構築するように特別に設計された、視覚データ用の新しい画像トークナイザー/デトークナイザー フレームワークを提案します。
このフレームワークを既存のテキスト トークナイザーおよびデトークナイザーと組み合わせることで、インターリーブされた画像とテキスト データをマルチモーダル シーケンスにエンコードし、その後トランスフォーマー モデルに入力できるようになります。
その結果、VL-GPT は、統合された自己回帰目標 (つまり、次のトークンの予測) を利用して、マルチモーダル コーパスに対して大規模な事前トレーニングを実行できます。
事前トレーニングが完了すると、VL-GPT は、画像キャプション、視覚的な質問応答、テキストから画像への生成など、さまざまな視覚および言語の理解および生成タスクにわたって、ゼロショットおよび少数ショットの優れたパフォーマンスを示します。

さらに、事前トレーニングされたモデルは、マルチモーダル プロンプトが提供されると、コンテキスト内学習機能を再トレーニングします。
さらに、VL-GPT の命令チューニングを実施し、マルチモーダル支援におけるその優れた可能性を強調しています。
ソースコードとモデルの重みは公開されます。

要約(オリジナル)

In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released.

arxiv情報

著者 Jinguo Zhu,Xiaohan Ding,Yixiao Ge,Yuying Ge,Sijie Zhao,Hengshuang Zhao,Xiaohua Wang,Ying Shan
発行日 2023-12-14 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク