要約
ビデオ言語モデル(VLMS)の評価は困難な作業です。
その透明性のため、多重選択質問応答(MCQA)は、精度を通じてこれらのモデルのパフォーマンスを測定するために広く使用されています。
ただし、既存のMCQAベンチマークは、トレーニング中に観察された位置パターンに基づいてモデルが不均衡に特定の回答オプションを支持する場合、選択バイアスのためにVLMの完全な推論機能をキャプチャできません。
この作業では、複雑なビデオ中心の推論を評価するために設計された主要なデータセット全体で、いくつかのVLMアーキテクチャの包括的な経験的分析を実施します。
バイアスが最も顕著である場所を特定し、回答位置などの任意のパターンや表面的な手がかりへの依存とは対照的に、モデル応答がビデオコンテンツと関連する質問の真の理解をどの程度反映しているかを示します。
MCQAタスクを分解し、公平性バイアスメトリックをVLMSに適応させることにより、このバイアスのバランスをとるために、後処理キャリブレーション手法を大胆に導入します。
我々の結果は、選択バイアスを減らすことで、衰弱メトリックだけでなく、精度やF1平均スコアなど、全体的なモデルパフォーマンスも改善することを示しています。
私たちの方法は、「盲目の推測」を抑制することにより、既存の手法と比較して選択バイアスを軽減するためのよりコストおよび時間効果の高いアプローチを提供します。
この研究は、ビデオからテキストへのLLM駆動モデルにおける選択バイアスの最初の焦点を絞った調査を表しています。
要約(オリジナル)
Evaluating Video Language Models (VLMs) is a challenging task. Due to its transparency, Multiple-Choice Question Answering (MCQA) is widely used to measure the performance of these models through accuracy. However, existing MCQA benchmarks fail to capture the full reasoning capabilities of VLMs due to selection bias, when models disproportionately favor certain answer options based on positional patterns observed during training. In this work, we conduct a comprehensive empirical analysis of several VLM architectures across major datasets designed to assess complex video-focused reasoning. We identify where the bias is most pronounced and demonstrate to what extent model responses reflect genuine understanding of video content and related questions, as opposed to reliance on arbitrary patterns or superficial cues, such as answer position. By decomposing the MCQA task and adapting fairness bias metrics to VLMs, we introduce a post-processing calibration technique BOLD to balance this bias. Our results show that reducing selection bias improves not only debiasing metrics but also overall model performance, including Accuracy and F1 Mean score. Our method, by suppressing ‘blind guessing’, offers a more cost- and time-effective approach to mitigating selection bias compared to existing techniques. This study represents the first focused investigation of selection bias in video-to-text LLM-powered models.
arxiv情報
著者 | Olga Loginova,Oleksandr Bezrukov,Ravi Shekhar,Alexey Kravets |
発行日 | 2025-05-30 17:01:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google