A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models

要約

良い例の確率を最適化する言語モデル (LM) の標準目的である最尤推定 (MLE) を超えて、多くの研究が、尤度トレーニング、指数関数最大化平均処理など、出力分布の品質を向上させるために悪い例にもペナルティを与える方法を模索してきました。
効果 (ExMATE)、および直接設定最適化 (DPO)。
これらの手法を体系的に比較し、さらに LM 最適化の統一レシピを提供するために、この論文では、LM の良い例に報酬を与え、同時に悪い例にペナルティを与える、損失関数の勾配解析の独自の角度を提示します。
CausalDialogue および Anthropic HH-RLHF データセットの数学的結果と実験の両方を通じて、これらの手法間の異なる機能特性を特定します。
ExMATE が MLE の優れた代替手段として機能し、MLE の代わりに DPO と ExMATE を組み合わせることで、統計的 (5 ~ 7%) パフォーマンスと生成的 (+18% 勝率) パフォーマンスがさらに向上することがわかりました。

要約(オリジナル)

Beyond maximum likelihood estimation (MLE), the standard objective of a language model (LM) that optimizes good examples probabilities, many studies have explored ways that also penalize bad examples for enhancing the quality of output distribution, including unlikelihood training, exponential maximizing average treatment effect (ExMATE), and direct preference optimization (DPO). To systematically compare these methods and further provide a unified recipe for LM optimization, in this paper, we present a unique angle of gradient analysis of loss functions that simultaneously reward good examples and penalize bad ones in LMs. Through both mathematical results and experiments on CausalDialogue and Anthropic HH-RLHF datasets, we identify distinct functional characteristics among these methods. We find that ExMATE serves as a superior surrogate for MLE, and that combining DPO with ExMATE instead of MLE further enhances both the statistical (5-7%) and generative (+18% win rate) performance.

arxiv情報

著者 Yi-Lin Tuan,William Yang Wang
発行日 2024-08-29 17:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク