要約
参照式生成(REG)は、視覚言語システムの実用的な能力を評価するための中核的なタスクであり、正確なセマンティック接地だけでなく、協力コミュニケーションの原則への遵守も必要です(Grice、1975)。
ただし、視覚言語モデル(VLM)の現在の評価は、しばしば実用的な次元を見落とし、regを地域ベースのキャプションタスクに減らし、グライスの格言を無視します。
この作業では、実用的な視点からRegを再検討し、書かれた式と話された式の両方で注釈された1.5k画像の新しいデータセット(refoi)を導入します。
最先端のVLMSの体系的な評価を通じて、実用的な能力の3つの重要な障害を特定します。(1)指示対象者を一意に識別できないこと、(2)過剰または無関係な情報の包含、および(3)最小の空間的キューの不足しているような人間の実用的選好との誤整理。
また、標準的な自動評価は、これらの実用的な違反をキャプチャできず、真の参照の成功ではなく表面的な手がかりを強化することも示しています。
私たちの調査結果は、実際の人間のコミュニケーションと一致する実用的に情報に基づいたモデルと評価フレームワークに新たな焦点を求めています。
要約(オリジナル)
Referring Expression Generation (REG) is a core task for evaluating the pragmatic competence of vision-language systems, requiring not only accurate semantic grounding but also adherence to principles of cooperative communication (Grice, 1975). However, current evaluations of vision-language models (VLMs) often overlook the pragmatic dimension, reducing REG to a region-based captioning task and neglecting Gricean maxims. In this work, we revisit REG from a pragmatic perspective, introducing a new dataset (RefOI) of 1.5k images annotated with both written and spoken referring expressions. Through a systematic evaluation of state-of-the-art VLMs, we identify three key failures of pragmatic competence: (1) failure to uniquely identify the referent, (2) inclusion of excessive or irrelevant information, and (3) misalignment with human pragmatic preference, such as the underuse of minimal spatial cues. We also show that standard automatic evaluations fail to capture these pragmatic violations, reinforcing superficial cues rather than genuine referential success. Our findings call for a renewed focus on pragmatically informed models and evaluation frameworks that align with real human communication.
arxiv情報
著者 | Ziqiao Ma,Jing Ding,Xuejun Zhang,Dezhi Luo,Jiahe Ding,Sihan Xu,Yuchen Huang,Run Peng,Joyce Chai |
発行日 | 2025-04-22 17:37:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google