A Vision Check-up for Language Models

要約

文字列間の関係をモデル化する学習は、視覚世界について大規模言語モデル(LLM)に何を教えるのか?我々は、複雑さを増す様々な視覚的概念を生成し認識するLLMの能力を系統的に評価し、テキストモデルを用いて予備的な視覚表現学習システムをどのように学習できるかを実証する。言語モデルには視覚情報をピクセルとして消費・出力する能力がないため、本研究ではコードを使って画像を表現する。LLMによって生成された画像は自然な画像のようには見えないが、画像生成と、生成された画像を修正するモデルの能力に関する結果は、文字列の正確なモデル化が、視覚世界の多くの側面について言語モデルに教えることができることを示している。さらに、テキストモデルで生成された画像を利用した自己教師付き視覚表現学習の実験により、LLMだけで自然画像の意味評価を行うことのできる視覚モデルを訓練できる可能性が強調された。

要約(オリジナル)

What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs’ abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.

arxiv情報

著者 Pratyusha Sharma,Tamar Rott Shaham,Manel Baradad,Stephanie Fu,Adrian Rodriguez-Munoz,Shivam Duggal,Phillip Isola,Antonio Torralba
発行日 2024-01-03 18:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク