Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

要約

幻覚は依然として大規模視覚言語モデル (LVLM) にとって大きな課題です。
Direct Preference Optimization (DPO) は、幻覚問題に対する簡単な解決策としてますます注目を集めています。
同じプロンプトと画像に対する反応における幻覚の重症度を反映する、構築された嗜好ペアから直接学習します。
それにもかかわらず、既存の作業におけるデータ構築方法の違いにより、パフォーマンスに顕著なばらつきが生じます。
ここで重要な要素を特定します。結果は、構築されたデータが DPO の初期 (参照) ポリシーに準拠しているかどうかに大きく左右されます。
理論分析によると、更新されたポリシーと参照ポリシーの間に KL 相違が存在することにより、ポリシー外データからの学習が妨げられることが示唆されています。
データセット配布の観点から、幻覚問題に対処するために DPO を採用する既存のアルゴリズムに内在する欠陥を体系的に要約します。
この問題を軽減するために、私たちは、専門家のフィードバックを独自に活用して幻覚反応を修正し、元の反応と専門家が修正した反応の両方をポリシーに沿った方法で調整する、オンポリシー調整 (OPA)-DPO フレームワークを提案します。
特に、OPA-DPO は、わずか 4.8k のデータで、LLaVA-1.5-7B の幻覚率のさらなる低減を達成しています。AMBER ベンチマークで 13.26%、Object-Hal ベンチマークで 5.39% でした。
16k サンプル。

要約(オリジナル)

Hallucination remains a major challenge for Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) has gained increasing attention as a simple solution to hallucination issues. It directly learns from constructed preference pairs that reflect the severity of hallucinations in responses to the same prompt and image. Nonetheless, different data construction methods in existing works bring notable performance variations. We identify a crucial factor here: outcomes are largely contingent on whether the constructed data aligns on-policy w.r.t the initial (reference) policy of DPO. Theoretical analysis suggests that learning from off-policy data is impeded by the presence of KL-divergence between the updated policy and the reference policy. From the perspective of dataset distribution, we systematically summarize the inherent flaws in existing algorithms that employ DPO to address hallucination issues. To alleviate the problems, we propose On-Policy Alignment (OPA)-DPO framework, which uniquely leverages expert feedback to correct hallucinated responses and aligns both the original and expert-revised responses in an on-policy manner. Notably, with only 4.8k data, OPA-DPO achieves an additional reduction in the hallucination rate of LLaVA-1.5-7B: 13.26% on the AMBER benchmark and 5.39% on the Object-Hal benchmark, compared to the previous SOTA algorithm trained with 16k samples.

arxiv情報

著者 Zhihe Yang,Xufang Luo,Dongqi Han,Yunjian Xu,Dongsheng Li
発行日 2025-01-16 17:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク