Do Pre-trained Vision-Language Models Encode Object States?

要約

視覚言語モデル (VLM) が原因と結果などの物理世界を理解するための最初のステップは、視覚世界の時間的ダイナミクス、たとえばオブジェクトの物理的状態が時間の経過とともにどのように進化するか (例: 全体) を捉えることです。
リンゴをスライスしたリンゴにします)。
私たちの論文は、Web スケールのデータで事前トレーニングされた VLM が、ゼロショット テキスト プロンプトで抽出できるオブジェクトの状態をエンコードすることを学習するかどうかを調査することを目的としています。
私たちは、オブジェクト状態認識データセット ChangeIt-Frames を厳選し、対照的および生成的目的でトレーニングされたモデルを含む 9 つのオープンソース VLM を評価します。
これらの最先端の視覚言語モデルは物体認識を確実に実行できるものの、常に物体の物理的状態を正確に区別できないことが観察されています。
広範な実験を通じて、オブジェクトの状態をより適切にエンコードするために VLM が改善すべき 3 つの領域、つまり、オブジェクトの位置特定の品質、概念をオブジェクトにバインドするアーキテクチャ、およびオブジェクトの状態に関する識別可能な視覚エンコーダと言語エンコーダを学習する目的を特定しました。
データとコードは公開されています。

要約(オリジナル)

For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects’ physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.

arxiv情報

著者 Kaleb Newman,Shijie Wang,Yuan Zang,David Heffren,Chen Sun
発行日 2024-09-16 17:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク