Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

要約

人間の言語による視覚情報の理解は進んでいますが、大視覚言語モデル (LVLM) は依然としてマルチモーダル幻覚に悩まされています。
当然の懸念は、マルチモーダルな相互作用中に、生成された幻覚が LVLM の次の世代に影響を与える可能性があることです。
したがって、私たちは疑問を提起します。以前に生成された幻覚に関連するクエリが提示されたとき、たとえ地上の視覚情報が存在していても、LVLM は誤解されて誤った応答をするのでしょうか?
これに答えるために、生成された幻覚に遭遇したときの LVLM の行動を評価する MMHalSnowball と呼ばれるフレームワークを提案します。LVLM は、厳選された幻覚会話内の特定の視覚的な質問に答える必要があります。
重要なことに、私たちの実験では、オープンソース LVLM のパフォーマンスが少なくとも $31\%$ 低下することが示されており、LVLM は生成された幻覚を受け入れ、気が散らなければサポートできなかったであろう誤った主張をする傾向があることを示しています。
私たちはこの現象を「多峰性幻覚雪だるま式現象」と呼んでいます。
これを軽減するために、我々はさらに、残差視覚デコーディングと呼ばれるトレーニング不要の方法を提案します。この方法では、LVLM の出力分布を残差視覚入力から導出されたもので修正し、モデルに視覚情報への直接アクセスを提供します。
実験では、私たちの方法が機能を維持しながら、雪だるま式に増加する多峰性幻覚を $24\%$ 以上軽減できることが示されました。

要約(オリジナル)

Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs’ subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs’ behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities.

arxiv情報

著者 Weihong Zhong,Xiaocheng Feng,Liang Zhao,Qiming Li,Lei Huang,Yuxuan Gu,Weitao Ma,Yuan Xu,Bing Qin
発行日 2024-07-31 13:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク