Is Multimodal Vision Supervision Beneficial to Language?

要約

タイトル:マルチモーダルビジョン監視は言語にとって有益か?

要約:
– ビジョン(画像および動画)-言語(VL)プレトレーニングは、最近の人気のあるパラダイムで、画像検索、動画検索、ビジュアル質問応答などのマルチモーダルタスクで最先端の結果を達成しています。
– これらのモデルは、非監視学習でトレーニングされ、補完的なモダリティの監視から大いに利益を得ています。
– この論文では、ビジョン監視を使用してトレーニングされた言語表現が、ナチュラルランゲージアンダースタンディングやコモンセンスな推論のベンチマークでバニラ言語表現よりも優れた性能を発揮するかどうかを調査しています。
– ALBEF、BLIP、METERのような多様な画像テキストモデルやALPRO、Frozen-in-Time(FiT)、VIOLETのビデオテキストモデルなど、さまざまなモデルで実験を行いました。
– これらのモデルの単独のテキストエンコーダの言語表現と、ビジョン監視を通じて学習されたテキストエンコーダの言語表現のパフォーマンスを比較しました。
– 実験の結果、バニラ言語表現が大部分のタスクで優れた性能を発揮することが示唆されました。
– これらの結果は、ビジョン-言語モデルの現在の欠点を明らかにするものです。

要約(オリジナル)

Vision (image and video) – Language (VL) pre-training is the recent popular paradigm that achieved state-of-the-art results on multi-modal tasks like image-retrieval, video-retrieval, visual question answering etc. These models are trained in an unsupervised way and greatly benefit from the complementary modality supervision. In this paper, we explore if the language representations trained using vision supervision perform better than vanilla language representations on Natural Language Understanding and commonsense reasoning benchmarks. We experiment with a diverse set of image-text models such as ALBEF, BLIP, METER and video-text models like ALPRO, Frozen-in-Time (FiT), VIOLET. We compare the performance of language representations of stand-alone text encoders of these models to the language representations of text encoders learnt through vision supervision. Our experiments suggest that vanilla language representations show superior performance on most of the tasks. These results shed light on the current drawbacks of the vision-language models.

arxiv情報

著者 Avinash Madasu,Vasudev Lal
発行日 2023-04-15 00:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク