Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models

要約

このペーパーでは、大規模なマルチモーダルモデル(LMMS)の堅牢な理解能力を評価するための新しいタスクを紹介します。
多肢選択式の質問応答(MCQA)は、LMMの理解能力を評価するために広く使用されていますが、LMMが本当に答えを理解することを保証するものではありません。
UPDは、MCQAの解決不可能な問題に遭遇したときに答えを差し控えるLMMの能力を評価し、モデルが本当に答えを理解しているかどうかを確認します。
UPDには、回答がない(AAD)、互換性のない回答セット検出(IASD)、および互換性のない視覚的質問検出(IVQD)の欠如の3つの問題が含まれます。
評価のために、さまざまな能力の次元にわたるパフォーマンスを評価するためのベンチマークであるMM-UPDベンチを導入します。
私たちの実験は、既存のベンチマークで適切なパフォーマンスを実証するほとんどのLMMでさえ、MM-UPDと大幅に苦労し、現在のベンチマークが見落としている信頼性の新しい側面を強調していることを明らかにしています。
詳細な分析では、LMMには異なるボトルネックがあり、LMMSのボトルネックを使用してLMMのパフォーマンスが向上し、自己反映が改善されていることが示されています。
私たちの洞察が、より信頼性の高いLMMのより広範な理解と開発を強化することを願っています。

要約(オリジナル)

This paper introduces a novel task to evaluate the robust understanding capability of Large Multimodal Models (LMMs), termed $\textbf{Unsolvable Problem Detection (UPD)}$. Multiple-choice question answering (MCQA) is widely used to assess the understanding capability of LMMs, but it does not guarantee that LMMs truly comprehend the answer. UPD assesses the LMM’s ability to withhold answers when encountering unsolvable problems of MCQA, verifying whether the model truly understands the answer. UPD encompasses three problems: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD), covering unsolvable cases like answer-lacking or incompatible choices and image-question mismatches. For the evaluation, we introduce the MM-UPD Bench, a benchmark for assessing performance across various ability dimensions. Our experiments reveal that even most LMMs, which demonstrate adequate performance on existing benchmarks, struggle significantly with MM-UPD, underscoring a novel aspect of trustworthiness that current benchmarks have overlooked. A detailed analysis shows that LMMs have different bottlenecks and chain-of-thought and self-reflection improved performance for LMMs with the bottleneck in their LLM capability. We hope our insights will enhance the broader understanding and development of more reliable LMMs.

arxiv情報

著者 Atsuyuki Miyai,Jingkang Yang,Jingyang Zhang,Yifei Ming,Qing Yu,Go Irie,Yixuan Li,Hai Li,Ziwei Liu,Kiyoharu Aizawa
発行日 2025-04-09 17:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク