要約
一致する手がかりを視覚的にリンクすることは、自分の手がかりに基づいて複数の写真で同じ人を識別するなど、日常生活において重要な能力です。
ビジョン言語モデル(VLM)が持っている広範な知識にもかかわらず、この基本的なタスクを実行できるかどうかは、ほとんど説明されていません。
これに対処するために、VLMが一致するキューを視覚的にリンクできるかどうかを評価できるベンチマークであるVLM $^2 $ -Benchを導入します。
8つのオープンソースVLMSとGPT-4Oにわたる包括的な評価、およびさまざまな言語側およびビジョン側のプロンプトメソッドのさらなる分析により、合計8つの重要な調査結果が発生します。
視覚的な手がかりをリンクするモデルの能力における重要な課題を特定し、GPT-4Oでさえ人間に34.80%遅れている重要なパフォーマンスギャップを強調しています。
これらの洞察に基づいて、(i)適応性を向上させ、事前知識への依存を減らすためのコア視覚能力の向上、(ii)不必要なバイアスを防ぐために視覚中心のタスクに言語ベースの推論を統合するためのより明確な原則を確立することを提唱します。
)視覚的な手がかりの間の関係を独立して構築し、推測するモデルの能力を促進するためのビジョンテキストトレーニングパラダイムをシフトするパラダイム。
要約(オリジナル)
Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM$^2$-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models’ ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models’ ability to independently structure and infer relationships among visual cues.
arxiv情報
著者 | Jianshu Zhang,Dongyu Yao,Renjie Pi,Paul Pu Liang,Yi R.,Fung |
発行日 | 2025-02-17 17:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google