要約
幻覚は、大規模視覚言語モデル(LVLM)にとって依然として大きな課題である。直接選好最適化(Direct Preference Optimization: DPO)は、幻覚の問題を簡単に解決する方法として注目されている。これは、同じプロンプトと画像に対する反応における幻覚の深刻度を反映する、構築された選好ペアから直接学習する。それにもかかわらず、既存の作品ではデータの構築方法が異なるため、性能に顕著なばらつきがある。我々はここで重要な要因を特定する。それは、構築されたデータがDPOの初期(参照)方針と方針が一致しているかどうかによって、結果が大きく左右されることである。理論的分析によれば、オフポリシーデータからの学習は、更新されたポリシーと参照ポリシーとの間にKL-ダイバージェンスが存在することによって阻害される。データセット分布の観点から、幻覚問題に対処するためにDPOを採用する既存のアルゴリズムに内在する欠陥を系統的に要約する。この問題を緩和するために、我々は、幻覚応答を修正するために専門家のフィードバックを独自に活用し、元の応答と専門家が修正した応答の両方をオンポリシー方式で整列させる、オンポリシー整列(OPA)-DPOフレームワークを提案する。特筆すべきは、OPA-DPOはわずか4.8kデータで、16kサンプルで学習させた従来のSOTAアルゴリズムと比較して、AMBERベンチマークで13.26%、Object-Halベンチマークで5.39%という、LLaVA-1.5-7Bの幻覚率のさらなる低減を達成したことである。我々の実装はhttps://github.com/zhyang2226/OPA-DPO。
要約(オリジナル)
Hallucination remains a major challenge for Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) has gained increasing attention as a simple solution to hallucination issues. It directly learns from constructed preference pairs that reflect the severity of hallucinations in responses to the same prompt and image. Nonetheless, different data construction methods in existing works bring notable performance variations. We identify a crucial factor here: outcomes are largely contingent on whether the constructed data aligns on-policy w.r.t the initial (reference) policy of DPO. Theoretical analysis suggests that learning from off-policy data is impeded by the presence of KL-divergence between the updated policy and the reference policy. From the perspective of dataset distribution, we systematically summarize the inherent flaws in existing algorithms that employ DPO to address hallucination issues. To alleviate the problems, we propose On-Policy Alignment (OPA)-DPO framework, which uniquely leverages expert feedback to correct hallucinated responses and aligns both the original and expert-revised responses in an on-policy manner. Notably, with only 4.8k data, OPA-DPO achieves an additional reduction in the hallucination rate of LLaVA-1.5-7B: 13.26% on the AMBER benchmark and 5.39% on the Object-Hal benchmark, compared to the previous SOTA algorithm trained with 16k samples. Our implementation is available at https://github.com/zhyang2226/OPA-DPO.
arxiv情報
著者 | Zhihe Yang,Xufang Luo,Dongqi Han,Yunjian Xu,Dongsheng Li |
発行日 | 2025-03-03 14:48:45+00:00 |
arxivサイト | arxiv_id(pdf) |