Image-and-Language Understanding from Pixels Only

要約

マルチモーダル モデルは、Transformer アーキテクチャなどのコンポーネントが統合されていることもあり、ますます効果的になっています。
ただし、マルチモーダル モデルは、多くの場合、多くのタスクおよびモダリティ固有の部分とトレーニング手順で構成されています。
たとえば、CLIP (Radford et al., 2021) は、対照的な損失を介して独立したテキストと画像のタワーをトレーニングします。
追加の統合を検討します。純粋なピクセルベースのモデルを使用して、画像、テキスト、およびマルチモーダル タスクを実行します。
私たちのモデルはコントラスト損失のみでトレーニングされているため、CLIP-Pixels Only (CLIPPO) と呼んでいます。
CLIPPO は、通常の画像と画像としてレンダリングされたテキストの両方を処理する単一のエンコーダーを使用します。
CLIPPO は、CLIP とほぼ同じように検索やゼロショット画像分類などの画像ベースのタスクを実行します。パラメーターの数は半分で、テキスト固有の塔や埋め込みはありません。
画像とテキストの対比学習と次の文の対比学習を介して共同でトレーニングすると、CLIPPO は単語レベルの損失 (言語モデリングまたはマスクされた言語モデリング) なしで自然言語理解タスクでうまく実行でき、ピクセルベースの以前の作業よりも優れています。
驚くべきことに、CLIPPO は、質問と画像を一緒にレンダリングするだけで、視覚的な質問応答で高い精度を得ることができます。
最後に、CLIPPO がトークナイザーを必要としないという事実を利用して、多言語マルチモーダル検索で強力なパフォーマンスを達成できることを示します。

要約(オリジナル)

Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example, CLIP (Radford et al., 2021) trains independent text and image towers via a contrastive loss. We explore an additional unification: the use of a pure pixel-based model to perform image, text, and multimodal tasks. Our model is trained with contrastive loss alone, so we call it CLIP-Pixels Only (CLIPPO). CLIPPO uses a single encoder that processes both regular images and text rendered as images. CLIPPO performs image-based tasks such as retrieval and zero-shot image classification almost as well as CLIP, with half the number of parameters and no text-specific tower or embedding. When trained jointly via image-text contrastive learning and next-sentence contrastive learning, CLIPPO can perform well on natural language understanding tasks, without any word-level loss (language modelling or masked language modelling), outperforming pixel-based prior work. Surprisingly, CLIPPO can obtain good accuracy in visual question answering, simply by rendering the question and image together. Finally, we exploit the fact that CLIPPO does not require a tokenizer to show that it can achieve strong performance on multilingual multimodal retrieval without

arxiv情報

著者 Michael Tschannen,Basil Mustafa,Neil Houlsby
発行日 2022-12-15 18:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク