Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

要約

好みラベルからの学習は、大規模な言語モデルを微調整する際に重要な役割を果たします。
好みの微調整には、教師あり学習、オンポリシー強化学習 (RL)、対照学習など、いくつかの異なるアプローチがあります。
手法が異なれば、実装のトレードオフやパフォーマンスの違いも異なり、既存の経験的知見は異なる結論を示します。たとえば、一部の結果では、オンライン RL は良好な微調整結果を達成するために非常に重要であることが示されていますが、他の結果では (オフラインで) 対照的であるか、あるいは純粋に監視されているとさえわかります。
方法で十分です。
これにより、当然の疑問が生じます。嗜好データを微調整するにはどのようなアプローチが重要であり、その理由は何でしょうか。
この論文では、教訓的および本格的な LLM 問題に対する多数の微調整テクニックの厳密な分析を実行することで、この質問に答えます。
私たちの主な発見は、一般に、ポリシーに基づくサンプリングを使用するアプローチ、または特定の応答の尤度を押し下げることを試みるアプローチ (つまり、「負の勾配」を使用する) が、オフラインおよび最尤目標を上回るパフォーマンスを発揮するということです。
私たちは洞察を概念化し、カテゴリ分布のモード探索目標の概念に基づいて、ポリシーに基づくサンプリングまたは負の勾配を使用する方法を統合します。
モード探索目標は、最尤法と比較して速い速度でカテゴリ分布の特定のビンの確率質量を変更できるため、ビン全体で質量をより効果的に再配置できます。
私たちの分析は、LLM の設定を微調整するための実用的な洞察を規定し、最大限の改善のためにデータを収集する方法を示します。

要約(オリジナル)

Learning from preference labels plays a crucial role in fine-tuning large language models. There are several distinct approaches for preference fine-tuning, including supervised learning, on-policy reinforcement learning (RL), and contrastive learning. Different methods come with different implementation tradeoffs and performance differences, and existing empirical findings present different conclusions, for instance, some results show that online RL is quite important to attain good fine-tuning results, while others find (offline) contrastive or even purely supervised methods sufficient. This raises a natural question: what kind of approaches are important for fine-tuning with preference data and why? In this paper, we answer this question by performing a rigorous analysis of a number of fine-tuning techniques on didactic and full-scale LLM problems. Our main finding is that, in general, approaches that use on-policy sampling or attempt to push down the likelihood on certain responses (i.e., employ a ‘negative gradient’) outperform offline and maximum likelihood objectives. We conceptualize our insights and unify methods that use on-policy sampling or negative gradient under a notion of mode-seeking objectives for categorical distributions. Mode-seeking objectives are able to alter probability mass on specific bins of a categorical distribution at a fast rate compared to maximum likelihood, allowing them to relocate masses across bins more effectively. Our analysis prescribes actionable insights for preference fine-tuning of LLMs and informs how data should be collected for maximal improvement.

arxiv情報

著者 Fahim Tajwar,Anikait Singh,Archit Sharma,Rafael Rafailov,Jeff Schneider,Tengyang Xie,Stefano Ermon,Chelsea Finn,Aviral Kumar
発行日 2024-04-22 17:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク