要約
マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モデル (MLLM) は幻覚という重大な問題に悩まされています。
したがって、MLLM におけるこのような幻覚を確実に検出することは、モデルの評価と実際のアプリケーション展開の保護において重要な側面となっています。
この分野におけるこれまでの研究は、単一のタスクに焦点が絞られていること、対処される幻覚カテゴリの範囲が不十分であること、および詳細な粒度が欠如していることによって制約されてきました。
これらの課題に対応するため、私たちの取り組みは幻覚検出の調査範囲を拡大します。
幻覚検出方法の進歩の評価を容易にするために細心の注意を払って作成された、新しいメタ評価ベンチマーク MHaluBench を紹介します。
さらに、一連の補助ツールを利用して幻覚の発生を堅牢に検証する、新しい統合マルチモーダル幻覚検出フレームワーク UNIHD を発表します。
緻密な評価と総合的な分析によりUNIHDの有効性を実証します。
また、さまざまなカテゴリの幻覚に対処するための特定のツールの適用に関する戦略的洞察も提供します。
要約(オリジナル)
Despite significant strides in multimodal tasks, Multimodal Large Language Models (MLLMs) are plagued by the critical issue of hallucination. The reliable detection of such hallucinations in MLLMs has, therefore, become a vital aspect of model evaluation and the safeguarding of practical application deployment. Prior research in this domain has been constrained by a narrow focus on singular tasks, an inadequate range of hallucination categories addressed, and a lack of detailed granularity. In response to these challenges, our work expands the investigative horizons of hallucination detection. We present a novel meta-evaluation benchmark, MHaluBench, meticulously crafted to facilitate the evaluation of advancements in hallucination detection methods. Additionally, we unveil a novel unified multimodal hallucination detection framework, UNIHD, which leverages a suite of auxiliary tools to validate the occurrence of hallucinations robustly. We demonstrate the effectiveness of UNIHD through meticulous evaluation and comprehensive analysis. We also provide strategic insights on the application of specific tools for addressing various categories of hallucinations.
arxiv情報
著者 | Xiang Chen,Chenxi Wang,Yida Xue,Ningyu Zhang,Xiaoyan Yang,Qiang Li,Yue Shen,Lei Liang,Jinjie Gu,Huajun Chen |
発行日 | 2024-05-27 11:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google