Do better language models have crisper vision?

要約

テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解できますか?
コンピュータ ビジョンで LLM がますます使用されるようになるにつれて、この問題に対処することが基本的かつ適切になります。
ただし、既存の研究は主に、ビジュアル コンテンツを生成したり、マルチモーダル データをクラスタリングしたりする機能など、限られたシナリオに焦点を当てています。
この目的を達成するために、言語モデルを視覚的な世界と適切に整合させる主要なプロパティを分離する Visual Text Representation Benchmark (ViTeRB) を提案します。
これにより、テキスト エンコーダを利用する現在の慣行に対抗して、視覚中心のコンテキストでテキストを表現するための理想的な候補として、大規模デコーダ ベースの LLM が特定されました。
これらの発見に基づいて、超軽量の CLIP のようなモデルである ShareLock を提案します。
ShareLock は、強力なビジョンと言語モデルからの事前計算可能な凍結特徴を活用することで、わずか 563,000 個の画像とキャプションのペアを使用しているにもかかわらず、ImageNet 上で 51% という驚異的な精度を達成します。
さらに、トレーニングに必要な時間は GPU 時間わずか 1 時間 (特徴の事前計算を含めると 10 時間) であり、従来の方法よりも大幅に短縮されます。
コードが公開されます。

要約(オリジナル)

How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) – orders of magnitude less than prior methods. Code will be released.

arxiv情報

著者 Jona Ruthardt,Gertjan J. Burghouts,Serge Belongie,Yuki M. Asano
発行日 2024-10-09 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク