要約
大型ビジョン言語モデル(LVLMS)は、視覚的な質問応答や画像キャプションなどのマルチモーダルタスクで顕著な機能を示しています。
ただし、視覚情報と生成されたテキストとの矛盾は、幻覚と呼ばれる現象であり、LVLMSの信頼性に関して未解決の問題のままです。
この問題に対処するために、文またはサブセンテンスレベルの幻覚を検出するために、計算上コストコストの大規模な(ビジョン)言語モデルを組み込むことを提案しました。
この作業では、無視できるコストでトークンレベルで幻覚を検出するために、軽量のバイナリ分類器であるMetatokenを紹介します。
統計分析に基づいて、LVLMSの幻覚の重要な要因を明らかにします。
Metatokenは、幻覚の較正された検出を提供するグラウンドトゥルースデータについての知識なしに、あらゆるオープンソースLVLMに適用できます。
私たちは、アプローチの有効性を実証する4つの最先端のLVLMでの方法を評価します。
要約(オリジナル)
Large Vision Language Models (LVLMs) have shown remarkable capabilities in multimodal tasks like visual question answering or image captioning. However, inconsistencies between the visual information and the generated text, a phenomenon referred to as hallucinations, remain an unsolved problem with regard to the trustworthiness of LVLMs. To address this problem, recent works proposed to incorporate computationally costly Large (Vision) Language Models in order to detect hallucinations on a sentence- or subsentence-level. In this work, we introduce MetaToken, a lightweight binary classifier to detect hallucinations on the token-level at negligible cost. Based on a statistical analysis, we reveal key factors of hallucinations in LVLMs. MetaToken can be applied to any open-source LVLM without any knowledge about ground truth data providing a calibrated detection of hallucinations. We evaluate our method on four state-of-the-art LVLMs demonstrating the effectiveness of our approach.
arxiv情報
著者 | Laura Fieback,Jakob Spiegelberg,Hanno Gottschalk |
発行日 | 2025-03-25 13:27:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google