Linearly Mapping from Image to Text Space

要約

テキストのみの言語モデル (LM) が非言語世界の特徴を表現することをどの程度学習するかは未解決の問題です。
以前の研究では、視覚モデルのパラメーターが言語空間で画像をエンコードするように最適化されている場合、事前トレーニング済みの LM に画像をキャプションするように教えることができることが示されています。
より強力な仮説をテストします。固定されたテキストのみのモデルと視覚のみのモデルによって学習された概念表現は、線形マップで達成できるほど十分に類似しているというものです。
単一の線形投影のみをトレーニングすることにより、ビジョンモデルからの画像表現を連続プロンプトとして凍結された LM に転送できることを示します。
これらを使用して LM にプロンプ​​トを表示すると、画像エンコーダーとテキスト デコーダーの両方を調整するモデル (MAGMA モデルなど) と比較して、キャプションと視覚的な質問応答タスクで競争力のあるパフォーマンスを実現できます。
事前トレーニング中に見られる言語監視の量が増加している 3 つの画像エンコーダーを比較します: BEIT (言語情報なし)、NF-ResNET (語彙カテゴリ情報)、および CLIP (完全な自然言語記述)。
3 つのエンコーダーはすべて、視覚特性情報を言語モデルに転送する際に同等にうまく機能することがわかりました (例: 動物が大きいか小さいか)、しかし、言語の監督で事前にトレーニングされた画像エンコーダーは、カテゴリ情報をより顕著にエンコードします (例: カバとカバの区別)。
象) となり、言語と視覚のベンチマーク タスクでのパフォーマンスが大幅に向上します。
私たちの結果は、LM が視覚ベースのモデルと同様に構造的に概念情報をエンコードすることを示しています。
コードはこちらから入手できます: https://github.com/jmerullo/limber

要約(オリジナル)

The extent to which text-only language models (LMs) learn to represent features of the non-linguistic world is an open question. Prior work has shown that pretrained LMs can be taught to caption images when a vision model’s parameters are optimized to encode images in the language space. We test a stronger hypothesis: that the conceptual representations learned by frozen text-only models and vision-only models are similar enough that this can be achieved with a linear map. We show that the image representations from vision models can be transferred as continuous prompts to frozen LMs by training only a single linear projection. Using these to prompt the LM achieves competitive performance on captioning and visual question answering tasks compared to models that tune both the image encoder and text decoder (such as the MAGMA model). We compare three image encoders with increasing amounts of linguistic supervision seen during pretraining: BEIT (no linguistic information), NF-ResNET (lexical category information), and CLIP (full natural language descriptions). We find that all three encoders perform equally well at transferring visual property information to the language model (e.g., whether an animal is large or small), but that image encoders pretrained with linguistic supervision more saliently encode category information (e.g., distinguishing hippo vs. elephant) and thus perform significantly better on benchmark language-and-vision tasks. Our results indicate that LMs encode conceptual information structurally similarly to vision-based models, even those that are solely trained on images. Code is available here: https://github.com/jmerullo/limber

arxiv情報

著者 Jack Merullo,Louis Castricato,Carsten Eickhoff,Ellie Pavlick
発行日 2023-03-09 15:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク