要約
このペーパーでは、単語学習中に子供に観察される認知現象である相互排他性(ME)バイアスを評価するための新しいベンチマークであるMebenchを紹介します。
従来のMEタスクとは異なり、Mebenchはさらに空間的推論を組み込んで、より挑戦的で現実的な評価設定を作成します。
私に基づく推論の重要な側面をキャプチャする新しい評価メトリックを使用して、このベンチマークで最先端のビジョン言語モデル(VLM)のパフォーマンスを評価します。
制御された実験を容易にするために、多様な注釈付きシーンの構築をサポートする柔軟でスケーラブルなデータ生成パイプラインも提示します。
要約(オリジナル)
This paper introduces MEBench, a novel benchmark for evaluating mutual exclusivity (ME) bias, a cognitive phenomenon observed in children during word learning. Unlike traditional ME tasks, MEBench further incorporates spatial reasoning to create more challenging and realistic evaluation settings. We assess the performance of state-of-the-art vision-language models (VLMs) on this benchmark using novel evaluation metrics that capture key aspects of ME-based reasoning. To facilitate controlled experimentation, we also present a flexible and scalable data generation pipeline that supports the construction of diverse annotated scenes.
arxiv情報
著者 | Anh Thai,Stefan Stojanov,Zixuan Huang,Bikram Boote,James M. Rehg |
発行日 | 2025-05-26 15:23:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google