要約
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップです。
アライメントターゲットは、ベースモデルに対するアラインドモデルからのサンプルの勝利率を改善します。
今日、標準のサンプリングではなく、言語モデルからデコードするために、推論時間アルゴリズム(ベストN、制御されたデコード、ツリー検索など)をますます使用しています。
この列車/テストの不一致により、このような推論時の方法を考慮して、標準のRLHFフレームワークが最適であることを示します。
この目的のために、基本モデルに対するアラインドポリシーの推論時間ウィンレートを最適化することを目的とする推論対象アライメント(インターグリグ)のフレームワークを提案します。
推論時間デコード手順では、最適な整列ポリシーが報酬の変換を伴う標準のRLHF問題の解決策であることを証明します。
これにより、この問題を解決するために、キャリブレーションとトランスフォームのRL(インフォグリイン-CTRL)アルゴリズムを提供するように動機付けられます。
Best-of-NサンプリングとBest-of-n Jailbreakingの場合、推論時間の勝利率を最大3〜8%の改善を提供する特定の変換を提案します。
最後に、提案された報酬キャリブレーション方法は、標準の勝利率を最適化するための強力なベースラインであることも示します。
要約(オリジナル)
Language model alignment is a critical step in training modern generative language models. Alignment targets to improve win rate of a sample from the aligned model against the base model. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. We show that this train/test mismatch makes standard RLHF framework sub-optimal in view of such inference-time methods. To this end, we propose a framework for inference-aware alignment (InfAlign), which aims to optimize inference-time win rate of the aligned policy against the base model. We prove that for any inference-time decoding procedure, the optimal aligned policy is the solution to the standard RLHF problem with a transformation of the reward. This motivates us to provide the calibrate-and-transform RL (InfAlign-CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. For best-of-N sampling and best-of-N jailbreaking, we propose specific transformations offering up to 3-8% improvement on inference-time win rates. Finally, we also show that our proposed reward calibration method is a strong baseline for optimizing standard win rate.
arxiv情報
著者 | Ananth Balashankar,Ziteng Sun,Jonathan Berant,Jacob Eisenstein,Michael Collins,Adrian Hutter,Jong Lee,Chirag Nagpal,Flavien Prost,Aradhana Sinha,Ananda Theertha Suresh,Ahmad Beirami |
発行日 | 2025-02-06 18:15:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google