Decompose and Compare Consistency: Measuring VLMs’ Answer Reliability via Task-Decomposition Consistency Comparison

要約

目覚ましい進歩にもかかわらず、現在の最先端の視覚言語モデル (VLM) はまだ完璧には程遠いです。
彼らは幻覚を見る傾向があり、偏った反応を引き起こす可能性があります。
このような状況では、VLM によって生成された特定の応答の信頼性を評価する方法があれば非常に役立ちます。
回答の可能性やプロンプトベースの信頼生成を使用した不確実性の推定などの既存の方法は、多くの場合、過信に悩まされます。
他の方法では自己一貫性比較を使用しますが、確証バイアスの影響を受けます。
これらを軽減するために、信頼性測定のために \textbf{De}compose と \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) を提案します。
VLM の内部推論プロセスを使用して生成された直接的な回答と、質問をサブ質問に分解し、VLM によって生成されたサブ回答を推論することによって得られた間接的な回答との間の一貫性を比較することにより、\texttt{DeCC} は信頼性を測定します。
VLM の直接の答えです。
3 つの VLM を使用した 6 つの視覚言語タスクにわたる実験では、\texttt{DeCC} の信頼性推定が既存の方法と比較してタスクの精度とより良い相関関係を達成していることが示されています。

要約(オリジナル)

Despite tremendous advancements, current state-of-the-art Vision-Language Models (VLMs) are still far from perfect. They tend to hallucinate and may generate biased responses. In such circumstances, having a way to assess the reliability of a given response generated by a VLM is quite useful. Existing methods, such as estimating uncertainty using answer likelihoods or prompt-based confidence generation, often suffer from overconfidence. Other methods use self-consistency comparison but are affected by confirmation biases. To alleviate these, we propose \textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) for reliability measurement. By comparing the consistency between the direct answer generated using the VLM’s internal reasoning process, and the indirect answers obtained by decomposing the question into sub-questions and reasoning over the sub-answers produced by the VLM, \texttt{DeCC} measures the reliability of VLM’s direct answer. Experiments across six vision-language tasks with three VLMs show \texttt{DeCC}’s reliability estimation achieves better correlation with task accuracy compared to the existing methods.

arxiv情報

著者 Qian Yang,Weixiang Yan,Aishwarya Agrawal
発行日 2024-07-10 17:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク