要約
マルチモーダル コンテキストで画像とテキストをシームレスに生成できる、Transformer ベースのマルチモーダル基盤モデルである Emu を紹介します。
この雑食モデルは、すべてに 1 つのモデルを使用する自己回帰トレーニング プロセスを通じて、単一モダリティまたはマルチモーダルのデータ入力 (インターリーブされた画像、テキスト、ビデオなど) を無差別に取り込むことができます。
まず、視覚信号がエンコードされてエンベディングされ、テキスト トークンとともにインターリーブされた入力シーケンスが形成されます。
次に、Emu は、次のテキスト トークンを分類するか、マルチモーダル シーケンス内の次の視覚的埋め込みを回帰するという統一された目的でエンドツーエンドでトレーニングされます。
この多用途のマルチモダリティにより、フレームとテキストがインターリーブされたビデオ、画像とテキストがインターリーブされた Web ページ、Web スケールの画像とテキストのペア、ビデオとテキストのペアなど、さまざまな事前トレーニング データ ソースを大規模に探索できるようになります。
Emu は、画像からテキストへのタスクとテキストから画像へのタスクの両方に対する汎用的なマルチモーダル インターフェイスとして機能し、コンテキスト内の画像とテキストの生成をサポートします。
画像キャプション、ビジュアル質問応答、ビデオ質問応答、テキストから画像への生成など、幅広いゼロショット/数ショットのタスクにわたって、Emu は最先端の大規模マルチモーダル モデルと比較して優れたパフォーマンスを示します。
命令チューニングによるマルチモーダル アシスタントなどの拡張機能も、優れたパフォーマンスで実証されています。
要約(オリジナル)
We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance.
arxiv情報
著者 | Quan Sun,Qiying Yu,Yufeng Cui,Fan Zhang,Xiaosong Zhang,Yueze Wang,Hongcheng Gao,Jingjing Liu,Tiejun Huang,Xinlong Wang |
発行日 | 2023-07-11 12:45:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google