要約
視覚言語モデル (VLM) は、人間としての常識的な知識に基づいて推論できることが期待されています。
一例として、人間は知識に基づいて、画像がいつどこで撮影されたかを推測できることが挙げられます。
このことから、視覚的な手がかりに基づいて、大規模な画像テキストリソースを使用して事前トレーニングされた視覚言語モデルが推論時間と位置において人間の能力を達成し、さらにはそれを上回ることができるのではないかと疑問に感じます。
この疑問に対処するために、我々は、2 段階の \recognition\space と \reasoning\space のプローブ タスクを提案します。これを識別 VLM と生成 VLM に適用して、VLM が時間と位置に関連する特徴を認識し、それについてさらに推論できるかどうかを明らかにします。
調査を容易にするために、豊富な社会文化的手がかりを持つ画像を網羅する、よく厳選された画像データセットである WikiTiLo を紹介します。
広範な実験研究の結果、VLM はビジュアル エンコーダに関連する機能を効果的に保持できるものの、依然として完璧な推論を行うことができないことがわかりました。
今後の研究を容易にするために、データセットとコードをリリースします。
要約(オリジナル)
Vision-Language Models (VLMs) are expected to be capable of reasoning with commonsense knowledge as human beings. One example is that humans can reason where and when an image is taken based on their knowledge. This makes us wonder if, based on visual cues, Vision-Language Models that are pre-trained with large-scale image-text resources can achieve and even outperform human’s capability in reasoning times and location. To address this question, we propose a two-stage \recognition\space and \reasoning\space probing task, applied to discriminative and generative VLMs to uncover whether VLMs can recognize times and location-relevant features and further reason about it. To facilitate the investigation, we introduce WikiTiLo, a well-curated image dataset compromising images with rich socio-cultural cues. In the extensive experimental studies, we find that although VLMs can effectively retain relevant features in visual encoders, they still fail to make perfect reasoning. We will release our dataset and codes to facilitate future studies.
arxiv情報
著者 | Gengyuan Zhang,Yurui Zhang,Kerui Zhang,Volker Tresp |
発行日 | 2023-07-12 13:46:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google