Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

要約

広く採用されているオフライン嗜好最適化アルゴリズムである直接嗜好最適化 (DPO) は、ペアごとの嗜好データを使用して、大規模言語モデル (LLM) を人間の望ましい動作に合わせることを目的としています。
ただし、ペアデータ内の勝ちの応答と負けの応答は個別に生成されるため、それらの間の相関が弱く、アライメントのパフォーマンスが最適ではありません。
この問題に対処するために、ペアごとのデータの相関関係のブリッジングとモデリングを行うための、BMC という名前の効果的なフレームワークを提案します。
まず、ターゲットを絞った変更により、ペアごとの優先順位信号の一貫性と有益性を高め、勝ちの応答に基づいて負けの応答を改善することで擬似的な勝ちの応答を合成します。
第 2 に、DPO だけではこれらの相関関係をモデル化し、微妙な変動を捉えるには不十分であることがわかりました。
したがって、トレーニング中にポリシー モデルの信頼性を動的に活用して、トークン レベルの相関関係を学習することを提案します。
QA、数学、指示に従うタスクに関する包括的な実験により、DPO を含む競合ベースラインを大幅に上回る、当社のアプローチの有効性が実証されました。
さらに、当社の詳細な定量分析により、当社のメソッドが DPO よりも優れたパフォーマンスを発揮する理由が明らかになり、他の DPO バリアントに対するその汎用性が示されます。

要約(オリジナル)

Direct preference optimization (DPO), a widely adopted offline preference optimization algorithm, aims to align large language models (LLMs) with human-desired behaviors using pairwise preference data. However, the winning response and the losing response within pairwise data are generated isolatedly, leading to weak correlations between them as well as suboptimal alignment performance. To address this issue, we propose an effective framework named BMC, for bridging and modeling correlations in pairwise data. Firstly, we increase the consistency and informativeness of the pairwise preference signals by targeted modifications, synthesizing a pseudo winning response through improving the losing response based on the winning response. Secondly, we identify that DPO alone is insufficient to model these correlations and capture nuanced variations. Therefore, we propose learning token-level correlations by dynamically leveraging the policy model’s confidence during training. Comprehensive experiments on QA, math, and instruction-following tasks demonstrate the effectiveness of our approach, significantly surpassing competitive baselines, including DPO. Additionally, our in-depth quantitative analysis reveals the reasons behind our method’s superior performance over DPO and showcases its versatility to other DPO variants.

arxiv情報

著者 Yuxin Jiang,Bo Huang,Yufei Wang,Xingshan Zeng,Liangyou Li,Yasheng Wang,Xin Jiang,Lifeng Shang,Ruiming Tang,Wei Wang
発行日 2024-08-14 11:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク