Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

要約

急速に開発されているラージ ビジョン言語モデル (LVLM) は、さまざまなマルチモーダル タスクで顕著な機能を示していますが、生成されたテキストが所定のコンテキストと一致しないという幻覚現象に依然として直面しており、LVLM の使用が大幅に制限されています。
これまでの研究のほとんどは、粗粒度レベルで幻覚を検出して軽減するか、高価な注釈 (独自のモデルや人間の専門家によるラベル付けなど) を必要としていました。
これらの問題に対処するために、きめ細かい AI フィードバックを介して LVLM の幻覚を検出し、軽減することを提案します。
基本的な考え方は、独自のモデルによって小型の文レベルの幻覚アノテーション データセットを生成し、それによって主要な幻覚タイプ (つまり、オブジェクト、属性、および関係) をカバーする文レベルの幻覚検出を実行できる幻覚検出モデルをトレーニングするというものです。
)。
次に、幻覚軽減モデルをトレーニングするための嗜好データセットを自動的に構築する、検出してから書き換えるパイプラインを提案します。
さらに、幻覚の重症度を区別し、幻覚の重症度を嗜好学習に組み込むことで LVLM の幻覚を軽減するための幻覚重症度認識直接嗜好最適化 (HSA-DPO) を導入することを提案します。
広範な実験により、私たちの方法の有効性が実証されています。

要約(オリジナル)

The rapidly developing Large Vision Language Models (LVLMs) have shown notable capabilities on a range of multi-modal tasks, but still face the hallucination phenomena where the generated texts do not align with the given contexts, significantly restricting the usages of LVLMs. Most previous work detects and mitigates hallucination at the coarse-grained level or requires expensive annotation (e.g., labeling by proprietary models or human experts). To address these issues, we propose detecting and mitigating hallucinations in LVLMs via fine-grained AI feedback. The basic idea is that we generate a small-size sentence-level hallucination annotation dataset by proprietary models, whereby we train a hallucination detection model which can perform sentence-level hallucination detection, covering primary hallucination types (i.e., object, attribute, and relationship). Then, we propose a detect-then-rewrite pipeline to automatically construct preference dataset for training hallucination mitigating model. Furthermore, we propose differentiating the severity of hallucinations, and introducing a Hallucination Severity-Aware Direct Preference Optimization (HSA-DPO) for mitigating hallucination in LVLMs by incorporating the severity of hallucinations into preference learning. Extensive experiments demonstrate the effectiveness of our method.

arxiv情報

著者 Wenyi Xiao,Ziwei Huang,Leilei Gan,Wanggui He,Haoyuan Li,Zhelun Yu,Hao Jiang,Fei Wu,Linchao Zhu
発行日 2024-04-22 14:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク