要約
ビジョン言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されています。
いくつかの研究では、VLMが人間のようなシーンの理解を示すことができることを示唆していますが、他の調査では関係情報を処理する能力の困難を明らかにしています。
広範囲にわたる適用性を実現するには、VLMSが確実に実行され、さまざまな関連タスクにわたって同等の能力をもたらす必要があります。
私たちは、これらのアーキテクチャが些細な空間認知に従事することにどれだけ信頼できるかをテストしようとしました。
テーブルに配置されたオブジェクトの3Dシーンを描いた画像を描いたベンチマークデータセット(TableTest)を開発し、それを使用して最新のVLMを評価しました。
結果は、論理的に同等の説明を使用するプロンプトのわずかなバリエーションによってパフォーマンスが低下する可能性があることを示しています。
これらの分析は、VLMが実際のアプリケーションにおける空間関係についてどのように推論するかについての制限を示唆しています。
また、より効率的なトレーニングとテストのために、画像キャプションコーパスを強化するための新しい機会を明らかにしています。
要約(オリジナル)
Vision language models (VLMs) are designed to extract relevant visuospatial information from images. Some research suggests that VLMs can exhibit humanlike scene understanding, while other investigations reveal difficulties in their ability to process relational information. To achieve widespread applicability, VLMs must perform reliably, yielding comparable competence across a wide variety of related tasks. We sought to test how reliable these architectures are at engaging in trivial spatial cognition, e.g., recognizing whether one object is left of another in an uncluttered scene. We developed a benchmark dataset — TableTest — whose images depict 3D scenes of objects arranged on a table, and used it to evaluate state-of-the-art VLMs. Results show that performance could be degraded by minor variations of prompts that use logically equivalent descriptions. These analyses suggest limitations in how VLMs may reason about spatial relations in real-world applications. They also reveal novel opportunities for bolstering image caption corpora for more efficient training and testing.
arxiv情報
著者 | Sangeet Khemlani,Tyler Tran,Nathaniel Gyory,Anthony M. Harrison,Wallace E. Lawson,Ravenna Thielstrom,Hunter Thompson,Taaren Singh,J. Gregory Trafton |
発行日 | 2025-04-22 17:38:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google