Analyzing the Roles of Language and Vision in Learning from Limited Data

要約

言語は視覚的な世界を理解するのに役立ちますか?
世界を言葉で説明するのではなく、実際に見ることがどれほど重要でしょうか?
知性の性質に関するこれらの基本的な質問に答えるのは困難でした。なぜなら、知的なシステムの例は人間しかなく、言語や視覚を分離した事例へのアクセスも限られていたからです。
しかし、人工知能研究者による洗練された視覚言語モデル (VLM) の開発は、言語と視覚が世界についての学習に与える貢献を探求する新たな機会を私たちに提供します。
これらのモデルの認知アーキテクチャからコンポーネントを切除して、限られたデータから新しいタスクの学習に対するコンポーネントの貢献を特定します。
すべてのコンポーネントを活用する言語モデルは、視覚的な入力がないにもかかわらず、VLM のパフォーマンスの大部分を回復することがわかり、その言語は事前の知識と推論へのアクセスを提供することでこれを可能にしているようです。

要約(オリジナル)

Does language help make sense of the visual world? How important is it to actually see the world rather than having it described with words? These basic questions about the nature of intelligence have been difficult to answer because we only had one example of an intelligent system — humans — and limited access to cases that isolated language or vision. However, the development of sophisticated Vision-Language Models (VLMs) by artificial intelligence researchers offers us new opportunities to explore the contributions that language and vision make to learning about the world. We ablate components from the cognitive architecture of these models to identify their contributions to learning new tasks from limited data. We find that a language model leveraging all components recovers a majority of a VLM’s performance, despite its lack of visual input, and that language seems to allow this by providing access to prior knowledge and reasoning.

arxiv情報

著者 Allison Chen,Ilia Sucholutsky,Olga Russakovsky,Thomas L. Griffiths
発行日 2024-05-10 17:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク