要約
ビジョン言語モデル(VLM)はさまざまなタスクで競争力のあるパフォーマンスを達成していますが、根本的な構造とシーンのセマンティクスの理解は、依然として研究されていません。
VLMの理解を調査するために、オブジェクトの特性と関係に関する能力を制御された解釈可能な方法で研究します。
この範囲に、制御された刺激を介して体系的な評価のための斬新で拡張可能なフレームワークであるCarvetを紹介します。
Carvetは、VLMの理解を評価するための標準化された体系的評価の欠如に対処し、研究者が統計的厳密さで仮説をテストできるようにします。
Carvetを使用すると、徹底的な刺激セット、注釈ノイズ、データセット固有のバイアス、および制御されていないシーンの複雑さで5つの最先端のVLMを評価します。
私たちの調査結果は、1)現在のVLMが限られた基本オブジェクトプロパティのみを正確に認識できることを明らかにしています。
2)彼らのパフォーマンスは、シーン内のオブジェクトの位置に大きく依存します。
3)彼らはオブジェクト間の基本的な関係を理解するのに苦労しています。
さらに、ヒトのアノテーターとの比較評価は、VLMがまだ人間レベルの精度を達成することに依然として及ばないことを明らかにしています。
要約(オリジナル)
While Vision-Language Models (VLMs) have achieved competitive performance in various tasks, their comprehension of the underlying structure and semantics of a scene remains understudied. To investigate the understanding of VLMs, we study their capability regarding object properties and relations in a controlled and interpretable manner. To this scope, we introduce CIVET, a novel and extensible framework for systematiC evaluatIon Via controllEd sTimuli. CIVET addresses the lack of standardized systematic evaluation for assessing VLMs’ understanding, enabling researchers to test hypotheses with statistical rigor. With CIVET, we evaluate five state-of-the-art VLMs on exhaustive sets of stimuli, free from annotation noise, dataset-specific biases, and uncontrolled scene complexity. Our findings reveal that 1) current VLMs can accurately recognize only a limited set of basic object properties; 2) their performance heavily depends on the position of the object in the scene; 3) they struggle to understand basic relations among objects. Furthermore, a comparative evaluation with human annotators reveals that VLMs still fall short of achieving human-level accuracy.
arxiv情報
| 著者 | Massimo Rizzoli,Simone Alghisi,Olha Khomyn,Gabriel Roccabruna,Seyed Mahed Mousavi,Giuseppe Riccardi |
| 発行日 | 2025-06-05 15:27:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google