要約
現在、言語と画像のアライメントを確立するための最も一般的なアプローチは、CLIPやその亜種のような対比学習を通して、テキストと画像のエンコーダを共同で事前学習することである。本研究では、このような高価な共同学習が必要かどうかを検討する。特に、事前に訓練された固定大規模言語モデル(LLM)が、視覚表現学習を導くのに十分なテキストエンコーダを提供するかどうかを調査する。つまり、画像エンコーダのみを学習することで、LLMから固定テキストエンコーダ(LIFT)による言語-画像アライメントを学習することを提案する。少し驚くことに、包括的なベンチマークとアブレーション研究を通して、この非常に単純化されたフレームワークLIFTが非常に効果的であり、計算効率においてかなりの利点を達成しながら、構文理解と長いキャプションを含むほとんどのシナリオにおいてCLIPを凌駕することを発見した。我々の研究は、LLMからのテキスト埋め込みがどのように視覚学習を導くことができるかを系統的に探求するための第一歩を踏み出し、言語整合的な視覚表現を学習するための代替的な設計選択を示唆する。
要約(オリジナル)
Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
arxiv情報
著者 | Jingfeng Yang,Ziyang Wu,Yue Zhao,Yi Ma |
発行日 | 2025-06-04 17:51:56+00:00 |
arxivサイト | arxiv_id(pdf) |