Bridging Vision and Language Spaces with Assignment Prediction

要約

この論文では、事前トレーニング済み視覚モデルと大規模言語モデル (LLM) を橋渡しして、フリーズした LLM に視覚世界を理解させる新しいアプローチである VLAP を紹介します。
VLAP は、単一の線形レイヤーを使用して、事前トレーニング済みビジョン モデルの埋め込み空間を LLM の単語埋め込み空間に変換し、効率的かつ汎用的な視覚および言語の理解を実現します。
具体的には、確立された単語埋め込みを利用して、2 つのモダリティ埋め込み空間を橋渡しします。
視覚表現とテキスト表現は、割り当て手順を最適なトランスポート問題として定式化することによって、事前トレーニングされた LLM 内の一連の単語埋め込みに同時に割り当てられます。
あるモダリティの割り当てを別のモダリティ データの表現から予測し、ペアになったマルチモーダル データに対して一貫した割り当てを強制します。
これにより、視覚表現と言語表現に同じ情報を含めることができ、凍結された LLM の単語埋め込みスペースが視覚データに固定されます。
さらに、LLM は単語埋め込み間の相関関係から言語情報を解釈して推論するため、LLM の堅牢な意味分類を視覚データとともに保存できます。
実験結果は、VLAP が、画像キャプション、視覚的な質問応答、クロスモーダル検索などのさまざまな視覚言語タスクにわたって、以前の線形変換ベースのアプローチに比べて大幅な改善を達成することを示しています。
また、学習された視覚表現が LLM の意味論的分類を保持し、視覚的意味論的算術が可能になることも示します。

要約(オリジナル)

This paper introduces VLAP, a novel approach that bridges pretrained vision models and large language models (LLMs) to make frozen LLMs understand the visual world. VLAP transforms the embedding space of pretrained vision models into the LLMs’ word embedding space using a single linear layer for efficient and general-purpose visual and language understanding. Specifically, we harness well-established word embeddings to bridge two modality embedding spaces. The visual and text representations are simultaneously assigned to a set of word embeddings within pretrained LLMs by formulating the assigning procedure as an optimal transport problem. We predict the assignment of one modality from the representation of another modality data, enforcing consistent assignments for paired multimodal data. This allows vision and language representations to contain the same information, grounding the frozen LLMs’ word embedding space in visual data. Moreover, a robust semantic taxonomy of LLMs can be preserved with visual data since the LLMs interpret and reason linguistic information from correlations between word embeddings. Experimental results show that VLAP achieves substantial improvements over the previous linear transformation-based approaches across a range of vision-language tasks, including image captioning, visual question answering, and cross-modal retrieval. We also demonstrate the learned visual representations hold a semantic taxonomy of LLMs, making visual semantic arithmetic possible.

arxiv情報

著者 Jungin Park,Jiyoung Lee,Kwanghoon Sohn
発行日 2024-04-15 10:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク