要約
Direct Preference Optimization (DPO) は、人間の好みに従うように大規模言語モデル (LLM) をトレーニングするための魅力的なアプローチとして登場しました。
ただし、DPO のパフォーマンスは、そのトレードオフ パラメーター $\beta$ の微調整と、嗜好データの品質に影響されます。
$\beta$ とデータ品質が DPO に及ぼす影響を分析し、最適な $\beta$ 値がペアデータの情報量に応じて変化することを明らかにしました。
静的な $\beta$ 値の制限に対処するため、データ品質の考慮事項に基づいて $\beta$ をバッチ レベルで動的に調整する新しいフレームワークを導入します。
さらに、私たちの手法には $\beta$ に基づいたデータ フィルタリングが組み込まれており、外れ値の影響を防ぎます。
経験的評価を通じて、動的 $\beta$ 調整手法がさまざまなモデルやデータセットにわたって DPO のパフォーマンスを大幅に向上させ、人間のフィードバックに合わせて LLM を調整するためのより堅牢で適応性のあるトレーニング パラダイムを提供することを実証しました。
コードは \url{https://github.com/junkangwu/beta-DPO} で入手できます。
要約(オリジナル)
Direct Preference Optimization (DPO) has emerged as a compelling approach for training Large Language Models (LLMs) to adhere to human preferences. However, the performance of DPO is sensitive to the fine-tuning of its trade-off parameter $\beta$, as well as to the quality of the preference data. We analyze the impact of $\beta$ and data quality on DPO, uncovering that optimal $\beta$ values vary with the informativeness of pairwise data. Addressing the limitations of static $\beta$ values, we introduce a novel framework that dynamically calibrates $\beta$ at the batch level, informed by data quality considerations. Additionally, our method incorporates $\beta$-guided data filtering to safeguard against the influence of outliers. Through empirical evaluation, we demonstrate that our dynamic $\beta$ adjustment technique significantly improves DPO’s performance across a range of models and datasets, offering a more robust and adaptable training paradigm for aligning LLMs with human feedback. The code is available at \url{https://github.com/junkangwu/beta-DPO}.
arxiv情報
著者 | Junkang Wu,Yuexiang Xie,Zhengyi Yang,Jiancan Wu,Jinyang Gao,Bolin Ding,Xiang Wang,Xiangnan He |
発行日 | 2024-07-11 16:21:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google