Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities

要約

状況に応じたコミュニケーションでの空間的表現は、スピーカーやリスナーが採用する参照のフレームによって異なるため、曖昧なコミュニケーションは曖昧です。
Vision言語モデル(VLM)による空間言語の理解と推論は注目を集めていますが、これらのモデルの潜在的なあいまいさは依然として推奨されていません。
この問題に対処するために、VLMSの空間推論能力を体系的に評価する評価プロトコルである一貫した多言語参照フレーム(Comfort)を提示します。
快適さを使用して、9つの最先端のVLMを評価します。
曖昧さを解決するための英語の慣習との整合性を示しているにもかかわらず、私たちの実験はVLMの重要な欠点を明らかにします。特に、モデルは堅牢性と一貫性が低いことを示します。
ビジョン言語モデルを人間の認知的直観に合わせるための努力が高まっているため、空間推論の曖昧な性質と異文化間の多様性により多くの注意を喚起します。

要約(オリジナル)

Spatial expressions in situated communication can be ambiguous, as their meanings vary depending on the frames of reference (FoR) adopted by speakers and listeners. While spatial language understanding and reasoning by vision-language models (VLMs) have gained increasing attention, potential ambiguities in these models are still under-explored. To address this issue, we present the COnsistent Multilingual Frame Of Reference Test (COMFORT), an evaluation protocol to systematically assess the spatial reasoning capabilities of VLMs. We evaluate nine state-of-the-art VLMs using COMFORT. Despite showing some alignment with English conventions in resolving ambiguities, our experiments reveal significant shortcomings of VLMs: notably, the models (1) exhibit poor robustness and consistency, (2) lack the flexibility to accommodate multiple FoRs, and (3) fail to adhere to language-specific or culture-specific conventions in cross-lingual tests, as English tends to dominate other languages. With a growing effort to align vision-language models with human cognitive intuitions, we call for more attention to the ambiguous nature and cross-cultural diversity of spatial reasoning.

arxiv情報

著者 Zheyuan Zhang,Fengyuan Hu,Jayjun Lee,Freda Shi,Parisa Kordjamshidi,Joyce Chai,Ziqiao Ma
発行日 2025-04-17 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク