要約
Vision Language Models(VLMS)は、Multimodal入力を処理するために言語エンコーダーとビジョンエンコーダーの両方とペアになったAIシステムです。
自動キャプションなどの複雑なセマンティックタスクを実行することができますが、処理する画像に描かれたシーンの視覚空間特性をどれだけ理解しているかについての未解決の疑問のままです。
画像で視覚的に表現されていないオブジェクト – がこれらのAIシステムでシーンの理解をテストするのに役立つ可能性があると主張します。
たとえば、木の下に立っている人を描いた画像は、次のプロンプトと組み合わせることができます。カイトが木に詰まっていると想像してください。
シーンを理解するVLMは、3つのオブジェクトすべて間の空間的関係について、表現と理性を賢明に更新する必要があります。
最先端のVLMの体系的な評価について説明し、仮想オブジェクトを処理する能力が不十分であることを示します。
要約(オリジナル)
Vision language models (VLMs) are AI systems paired with both language and vision encoders to process multimodal input. They are capable of performing complex semantic tasks such as automatic captioning, but it remains an open question about how well they comprehend the visuospatial properties of scenes depicted in the images they process. We argue that descriptions of virtual objects — objects that are not visually represented in an image — can help test scene comprehension in these AI systems. For example, an image that depicts a person standing under a tree can be paired with the following prompt: imagine that a kite is stuck in the tree. VLMs that comprehend the scene should update their representations and reason sensibly about the spatial relations between all three objects. We describe systematic evaluations of state-of-the-art VLMs and show that their ability to process virtual objects is inadequate.
arxiv情報
著者 | Tyler Tran,Sangeet Khemlani,J. G. Trafton |
発行日 | 2025-05-15 16:11:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google