Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models

要約

ラージ・ランゲージ・モデル(LLM)の可能性を最大限に活用するためには、回答の不確実性に関する情報を持つことが極めて重要である。これは、モデルが与えられた回答の正しさをどの程度確信しているかを定量化できる必要があることを意味する。不確実性の見積もりが悪いと、過信して間違った回答をすることになり、モデルの信頼が損なわれます。テキスト入力で動作し、テキスト出力を提供する言語モデルについては、かなり多くの研究が行われてきた。しかし、これらのモデルに視覚的機能が追加されたのは最近のことであるため、視覚言語モデル(VLM)の不確実性についてはあまり研究が進んでいない。我々は3つの最先端のVLMを破損した画像データでテストした。その結果、破損の程度がモデルの不確実性推定能力に悪影響を及ぼし、ほとんどの実験でモデルが過信を示すことがわかった。

要約(オリジナル)

To leverage the full potential of Large Language Models (LLMs) it is crucial to have some information on their answers’ uncertainty. This means that the model has to be able to quantify how certain it is in the correctness of a given response. Bad uncertainty estimates can lead to overconfident wrong answers undermining trust in these models. Quite a lot of research has been done on language models that work with text inputs and provide text outputs. Still, since the visual capabilities have been added to these models recently, there has not been much progress on the uncertainty of Visual Language Models (VLMs). We tested three state-of-the-art VLMs on corrupted image data. We found that the severity of the corruption negatively impacted the models’ ability to estimate their uncertainty and the models also showed overconfidence in most of the experiments.

arxiv情報

著者 Mirko Borszukovszki,Ivo Pascal de Jong,Matias Valdenegro-Toro
発行日 2025-04-04 13:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク