AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

要約

現代の大規模な言語モデル(LLMS)では、LLMアライメントは非常に重要であり、通常、人間のフィードバック(RLHF)からの強化学習や直接優先最適化(DPO)などの方法を通じて達成されます。
ただし、LLMアライメントのほとんどの既存の方法では、応答のすべてのトークンは、まばらな応答レベルの報酬または優先注釈を使用して最適化されています。
トークンレベルの報酬の無知は、高品質のトークンを誤って罰したり、低品質のトークンを促進したりして、最適ではないパフォーマンスと収束速度が遅くなる場合があります。
この問題に対処するために、トークンレベルの報酬最適化のためのRLHF等価蒸留方法であるAligndistilを提案します。
具体的には、DPOによって学んだ報酬をRLHFの目的に導入し、理論的には、この目的とトークンレベルの蒸留プロセスとの等価性を証明します。ここで、教師の分布はDPOモデルと参照モデルのロジットを直線的に組み合わせます。
これに基づいて、通常のDPOモデルと逆DPOモデルで対照的なDPO報酬を構築することにより、DPOモデルからの報酬と純粋な報酬モデルの間の精度ギャップをさらに埋めます。
さらに、さまざまなトークンでの過剰および過度の最適化を回避するために、トークン適応ロジット外挿メカニズムを設計して、各トークンに適切な教師分布を構築します。
実験結果は、既存の方法に対するAligndistilの優位性を示し、トークンレベルの分布報酬の最適化により、高速収束を紹介します。

要約(オリジナル)

In modern large language models (LLMs), LLM alignment is of crucial importance and is typically achieved through methods such as reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). However, in most existing methods for LLM alignment, all tokens in the response are optimized using a sparse, response-level reward or preference annotation. The ignorance of token-level rewards may erroneously punish high-quality tokens or encourage low-quality tokens, resulting in suboptimal performance and slow convergence speed. To address this issue, we propose AlignDistil, an RLHF-equivalent distillation method for token-level reward optimization. Specifically, we introduce the reward learned by DPO into the RLHF objective and theoretically prove the equivalence between this objective and a token-level distillation process, where the teacher distribution linearly combines the logits from the DPO model and a reference model. On this basis, we further bridge the accuracy gap between the reward from the DPO model and the pure reward model, by building a contrastive DPO reward with a normal and a reverse DPO model. Moreover, to avoid under- and over-optimization on different tokens, we design a token adaptive logit extrapolation mechanism to construct an appropriate teacher distribution for each token. Experimental results demonstrate the superiority of our AlignDistil over existing methods and showcase fast convergence due to its token-level distributional reward optimization.

arxiv情報

著者 Songming Zhang,Xue Zhang,Tong Zhang,Bojie Hu,Yufeng Chen,Jinan Xu
発行日 2025-03-04 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク