要約
Spatial Intelligence(SI)は、神経科学からロボット工学への分野を支える空間的関係についての視覚化、操作、および推論を含む認知能力を表します。
We introduce SITE, a benchmark dataset towards SI Thorough Evaluation in a standardized format of multi-choice visual question-answering, designed to assess large vision-language models’ spatial intelligence across diverse visual modalities (single-image, multi-image, and video) and SI factors (figural to environmental scales, spatial visualization and orientation, intrinsic and extrinsic, static and dynamic).
ベンチマークをキュレーションするアプローチは、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づいたトップダウン戦略を組み合わせて、ビューテイキングとダイナミックなシーンに関する2つの新しいタイプのタスクを設計することを促します。
広範な実験により、主要なモデルは、特に基本的なSI要因である空間的方向において、人間の専門家に遅れをとっていることが明らかになりました。
さらに、モデルの空間的推論能力と具体化されたAIタスクでのパフォーマンスとの間に正の相関関係を示します。
要約(オリジナル)
Spatial intelligence (SI) represents a cognitive ability encompassing the visualization, manipulation, and reasoning about spatial relationships, underpinning disciplines from neuroscience to robotics. We introduce SITE, a benchmark dataset towards SI Thorough Evaluation in a standardized format of multi-choice visual question-answering, designed to assess large vision-language models’ spatial intelligence across diverse visual modalities (single-image, multi-image, and video) and SI factors (figural to environmental scales, spatial visualization and orientation, intrinsic and extrinsic, static and dynamic). Our approach to curating the benchmark combines a bottom-up survey about 31 existing datasets and a top-down strategy drawing upon three classification systems in cognitive science, which prompt us to design two novel types of tasks about view-taking and dynamic scenes. Extensive experiments reveal that leading models fall behind human experts especially in spatial orientation, a fundamental SI factor. Moreover, we demonstrate a positive correlation between a model’s spatial reasoning proficiency and its performance on an embodied AI task.
arxiv情報
著者 | Wenqi Wang,Reuben Tan,Pengyue Zhu,Jianwei Yang,Zhengyuan Yang,Lijuan Wang,Andrey Kolobov,Jianfeng Gao,Boqing Gong |
発行日 | 2025-05-08 17:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google