AlphaPO — Reward shape matters for LLM alignment

要約

ヒューマン フィードバックによる強化学習 (RLHF) とその亜種は、大規模言語モデル (LLM) を効果的に調整して指示に従い、人間の価値観を反映することに向けて大きく進歩しました。
最近では、学習中のポリシーの関数として報酬を直接特徴付けることで、RLHF の報酬モデリング段階をスキップするダイレクト アライメント アルゴリズム (DAA) が登場しました。
例には、直接優先最適化 (DPO) と単純優先最適化 (SimPO) が含まれます。
これらの方法は、多くの場合、優先応答の確率が望ましくないほど低下する現象である尤度ずれに悩まされます。
この論文では、DAA にとって報酬 (関数) の形状が重要であると主張します。
$\alpha$ パラメーターを活用して、標準の対数報酬を超えて報酬関数の形状を変更するのに役立つ新しい DAA メソッドである AlphaPO を紹介します。
AlphaPO は、尤度のずれや過剰な最適化に対するきめ細かい制御を維持するのに役立ちます。
最もパフォーマンスの高い DAA の 1 つである SimPO と比較して、AlphaPO は、Mistral-7B および Llama3-8B の命令バージョンのアライメント パフォーマンスにおいて相対的に約 7\% ~ 10\% の向上をもたらします。
提示された分析と結果は、報酬の形状の重要性と、それを体系的に変更してトレーニングのダイナミクスに影響を与え、アライメントのパフォーマンスを向上させる方法を強調しています。

要約(オリジナル)

Reinforcement Learning with Human Feedback (RLHF) and its variants have made huge strides toward the effective alignment of large language models (LLMs) to follow instructions and reflect human values. More recently, Direct Alignment Algorithms (DAAs) have emerged in which the reward modeling stage of RLHF is skipped by characterizing the reward directly as a function of the policy being learned. Examples include Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO). These methods often suffer from likelihood displacement, a phenomenon by which the probabilities of preferred responses are often reduced undesirably. In this paper, we argue that, for DAAs the reward (function) shape matters. We introduce AlphaPO, a new DAA method that leverages an $\alpha$-parameter to help change the shape of the reward function beyond the standard log reward. AlphaPO helps maintain fine-grained control over likelihood displacement and over-optimization. Compared to SimPO, one of the best performing DAAs, AlphaPO leads to about 7\% to 10\% relative improvement in alignment performance for the instruct versions of Mistral-7B and Llama3-8B. The analysis and results presented highlight the importance of the reward shape, and how one can systematically change it to affect training dynamics, as well as improve alignment performance.

arxiv情報

著者 Aman Gupta,Shao Tang,Qingquan Song,Sirou Zhu,Jiwoo Hong,Ankan Saha,Viral Gupta,Noah Lee,Eunki Kim,Jason Zhu,Natesh Pillai,S. Sathiya Keerthi
発行日 2025-01-07 15:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク