要約
大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに優れています。
しかし、視点と環境の変化のために必然的に示す自然なシーンでオブジェクトが示す位置、スケール、方向、およびコンテキストの視覚的変動に対するそれらの堅牢性。
このギャップを埋めるために、自動化された評価データセット生成と徹底的な堅牢性評価のための原理化されたメトリックを含むLVLMSの視覚的変動の堅牢性を評価するための包括的なベンチマークフレームワークであるv $^2 $ r-benchを導入します。
21 LVLMSでの広範な評価を通じて、視覚的バリエーションに対する驚くべき脆弱性を明らかにします。そこでは、オブジェクト認識などの単純なタスクで複雑なビジョン言語タスクに優れている高度なモデルでさえもパフォーマンスが低いことを明らかにします。
興味深いことに、これらのモデルは、効果的な受容フィールドの理論と矛盾する明確な視覚位置バイアスを示し、人間のような視力閾値を実証します。
これらの脆弱性のソースを特定するために、コンポーネントレベルの分析のための体系的なフレームワークを提示し、整列した視覚的特徴のための新しい視覚化アプローチを特徴としています。
結果は、これらの脆弱性がパイプラインアーキテクチャにおけるエラーの蓄積と不十分なマルチモーダルアライメントに起因することを示しています。
合成データを伴う補完的な実験はさらに、これらの制限が基本的に建築的欠陥であり、将来のLVLMデザインにおける建築革新の必要性を採点していることを示しています。
要約(オリジナル)
Large Vision Language Models (LVLMs) excel in various vision-language tasks. Yet, their robustness to visual variations in position, scale, orientation, and context that objects in natural scenes inevitably exhibit due to changes in viewpoint and environment remains largely underexplored. To bridge this gap, we introduce V$^2$R-Bench, a comprehensive benchmark framework for evaluating Visual Variation Robustness of LVLMs, which encompasses automated evaluation dataset generation and principled metrics for thorough robustness assessment. Through extensive evaluation on 21 LVLMs, we reveal a surprising vulnerability to visual variations, in which even advanced models that excel at complex vision-language tasks significantly underperform on simple tasks such as object recognition. Interestingly, these models exhibit a distinct visual position bias that contradicts theories of effective receptive fields, and demonstrate a human-like visual acuity threshold. To identify the source of these vulnerabilities, we present a systematic framework for component-level analysis, featuring a novel visualization approach for aligned visual features. Results show that these vulnerabilities stem from error accumulation in the pipeline architecture and inadequate multimodal alignment. Complementary experiments with synthetic data further demonstrate that these limitations are fundamentally architectural deficiencies, scoring the need for architectural innovations in future LVLM designs.
arxiv情報
著者 | Zhiyuan Fan,Yumeng Wang,Sandeep Polisetty,Yi R. Fung |
発行日 | 2025-04-24 02:18:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google