GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚的理解と言語的理解を統合する点で大幅な進歩を遂げました。
既存のベンチマークは、コンテキスト豊富な現実のシナリオでこれらのモデルを評価しますが、日常の現実主義から逸脱した環境に不可欠な基本的な知覚スキルを見落とすことがよくあります。
特に、幾何学的知覚、つまり空間関係と抽象的な視覚パターンを解釈する能力は、依然として研究されていません。
この制限に対処するために、MLLM の幾何学的認識能力を評価するために設計された新しいベンチマークである GePBench を紹介します。
広範な評価の結果、現在の最先端の MLLM には、このようなタスクにおいて重大な欠陥があることが明らかになりました。
さらに、GePBench から取得したデータを使用してトレーニングされたモデルが、幅広い下流タスクで顕著な改善を示すことを実証し、高度なマルチモーダル アプリケーションの基盤としての幾何学的認識の重要性を強調しています。
私たちのコードとデータセットは一般公開されます。

要約(オリジナル)

Multimodal large language models (MLLMs) have achieved significant advancements in integrating visual and linguistic understanding. While existing benchmarks evaluate these models in context-rich, real-life scenarios, they often overlook fundamental perceptual skills essential for environments deviating from everyday realism. In particular, geometric perception, the ability to interpret spatial relationships and abstract visual patterns, remains underexplored. To address this limitation, we introduce GePBench, a novel benchmark designed to assess the geometric perception capabilities of MLLMs. Results from extensive evaluations reveal that current state-of-the-art MLLMs exhibit significant deficiencies in such tasks. Additionally, we demonstrate that models trained with data sourced from GePBench show notable improvements on a wide range of downstream tasks, underscoring the importance of geometric perception as a foundation for advanced multimodal applications. Our code and datasets will be publicly available.

arxiv情報

著者 Shangyu Xing,Changhao Xiang,Yuteng Han,Yifan Yue,Zhen Wu,Xinyu Liu,Zhangtai Wu,Fei Zhao,Xinyu Dai
発行日 2024-12-30 16:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク