STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

要約

具体化されたAIおよび自律運転のためのエンドツーエンドのソリューションとしてのマルチモーダル大手言語モデル(MLLM)の使用が一般的な傾向になりました。
MLLMは視覚的なセマンティック理解タスクのために広範囲に研究されていますが、実際のアプリケーションで正確かつ定量的な空間的理解を実行する能力は、ほとんど未検証のままであり、不確実な見通しにつながります。
モデルの空間的知能を評価するために、外観、ポーズ、変位、およびオブジェクトの動きの推定と予測などの挑戦的なタスクを通じてMLLMの空間的理解を評価するために設計されたベンチマークであるSTIベンチを導入します。
当社のベンチマークには、デスクトップ、屋内、屋外のシナリオ全体で、幅広いロボットと車両の運用が含まれています。
広範な実験は、最先端のMLLMが、特に正確な距離推定とモーション分析を必要とするタスクで、現実世界の空間的理解に依然として苦労していることを明らかにしています。

要約(オリジナル)

The use of Multimodal Large Language Models (MLLMs) as an end-to-end solution for Embodied AI and Autonomous Driving has become a prevailing trend. While MLLMs have been extensively studied for visual semantic understanding tasks, their ability to perform precise and quantitative spatial-temporal understanding in real-world applications remains largely unexamined, leading to uncertain prospects. To evaluate models’ Spatial-Temporal Intelligence, we introduce STI-Bench, a benchmark designed to evaluate MLLMs’ spatial-temporal understanding through challenging tasks such as estimating and predicting the appearance, pose, displacement, and motion of objects. Our benchmark encompasses a wide range of robot and vehicle operations across desktop, indoor, and outdoor scenarios. The extensive experiments reveals that the state-of-the-art MLLMs still struggle in real-world spatial-temporal understanding, especially in tasks requiring precise distance estimation and motion analysis.

arxiv情報

著者 Yun Li,Yiming Zhang,Tao Lin,XiangRui Liu,Wenxiao Cai,Zheng Liu,Bo Zhao
発行日 2025-04-21 13:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク