要約
直接優先最適化 (DPO) は、大規模言語モデル (LLM) の調整に効果的な方法であることが示されています。
最近の研究では、DPO をマルチモーダル シナリオに適用することが試みられていますが、一貫した改善を達成するのは困難であることがわかっています。
比較実験を通じて、モデルが画像の状態を見落としている、マルチモーダル優先最適化における無条件優先問題を特定しました。
この問題に対処するために、画像の好みも最適化することで言語のみの好みの過剰な優先順位付けを防ぐマルチモーダル DPO 目標である mDPO を提案します。
さらに、選択された応答に対して報酬がポジティブになるように強制する報酬アンカーを導入します。これにより、相対的選好の最適化の本質的な問題である可能性の低下を回避します。
サイズの異なる 2 つのマルチモーダル LLM と広く使用されている 3 つのベンチマークでの実験により、mDPO がマルチモーダル優先度の最適化における無条件優先度の問題に効果的に対処し、特に幻覚の低減においてモデルのパフォーマンスが大幅に向上することが実証されました。
要約(オリジナル)
Direct preference optimization (DPO) has shown to be an effective method for large language model (LLM) alignment. Recent works have attempted to apply DPO to multimodal scenarios but have found it challenging to achieve consistent improvement. Through a comparative experiment, we identify the unconditional preference problem in multimodal preference optimization, where the model overlooks the image condition. To address this problem, we propose mDPO, a multimodal DPO objective that prevents the over-prioritization of language-only preferences by also optimizing image preference. Moreover, we introduce a reward anchor that forces the reward to be positive for chosen responses, thereby avoiding the decrease in their likelihood — an intrinsic problem of relative preference optimization. Experiments on two multimodal LLMs of different sizes and three widely used benchmarks demonstrate that mDPO effectively addresses the unconditional preference problem in multimodal preference optimization and significantly improves model performance, particularly in reducing hallucination.
arxiv情報
著者 | Fei Wang,Wenxuan Zhou,James Y. Huang,Nan Xu,Sheng Zhang,Hoifung Poon,Muhao Chen |
発行日 | 2024-06-17 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google