要約
自己回帰言語モデル (LM) の優れたパフォーマンスにもかかわらず、報告バイアスにより、LM には視覚的な知識が欠けている、つまり、視覚的な世界とその特性についてあまり知らないことが示されています。
視覚的な知識で LM を強化するために、既存のソリューションは明示的な画像に依存することが多く、時間のかかる検索システムや画像生成システムが必要になります。
この論文は、LM を視覚的に強化するために明示的な画像は必要ないことを示しています。
代わりに、よく知られている CLIP マルチモーダル システムから取得した、視覚に基づいたテキスト表現を使用します。
公平な比較のために、画像の取得と表現を使用する視覚的に拡張された LM である VALM を、視覚に基づいたテキスト表現を直接操作できるように変更します。
この新しいモデルを BLIND-VALM と名付けます。
BLIND-VALM は、はるかに効率的かつ単純であるにもかかわらず、視覚言語理解 (VLU)、自然言語理解 (NLU)、および言語モデリングのタスクにおいて VALM と同等のパフォーマンスを発揮することを示します。
また、VALM のコンピューティング バジェット内でモデルをスケールアップすると、モデルまたは事前トレーニング コーパス サイズを増やすと、すべての評価タスクで VALM を上回るパフォーマンスが得られることも示します。
要約(オリジナル)
Despite the impressive performance of autoregressive Language Models (LM) it has been shown that due to reporting bias, LMs lack visual knowledge, i.e. they do not know much about the visual world and its properties. To augment LMs with visual knowledge, existing solutions often rely on explicit images, requiring time-consuming retrieval or image generation systems. This paper shows that explicit images are not necessary to visually augment an LM. Instead, we use visually-grounded text representations obtained from the well-known CLIP multimodal system. For a fair comparison, we modify VALM, a visually-augmented LM which uses image retrieval and representation, to work directly with visually-grounded text representations. We name this new model BLIND-VALM. We show that BLIND-VALM performs on par with VALM for Visual Language Understanding (VLU), Natural Language Understanding (NLU) and Language Modeling tasks, despite being significantly more efficient and simpler. We also show that scaling up our model within the compute budget of VALM, either increasing the model or pre-training corpus size, we outperform VALM for all the evaluation tasks.
arxiv情報
著者 | Paula Ontalvilla,Aitor Ormazabal,Gorka Azkune |
発行日 | 2024-09-17 13:02:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google