InfAlign: Inference-aware language model alignment

要約

言語モデルの調整は、最新の生成言語モデルをトレーニングする際の重要なステップとなっています。
アライメントの目標は、KL 発散制約のもとで、アライメントされたモデルのサンプルの参照モデルのサンプルに対する勝率が高くなるように参照モデルを微調整することです。
現在、標準的なサンプリングではなく、言語モデルからデコードする推論時アルゴリズム (Best-of-N、制御デコード、ツリー検索など) の使用が増えています。
ただし、アライメントの目的は、そのような推論時のデコード手順をキャプチャしません。
このような推論時間の手法を考慮すると、既存のアライメント フレームワークが最適ではないことを示します。
次に、アライメントの目的を変更し、推論を意識したアライメント (IAPO) のフレームワークを提案します。
我々は、あらゆる推論時デコードアルゴリズムにおいて、参照ポリシーに対する整合ポリシーの推論時勝率を最適化する最適解が、報酬の変換を伴う典型的な RLHF 問題の解であることを証明します。
このため、この問題を解決するための KL 正規化校正および変換 RL (CTRL) アルゴリズムを提供する動機が生まれました。これには、報酬校正ステップと、校正された報酬の変換を伴う KL 正規化報酬最大化ステップが含まれます。
私たちは研究を 2 つの重要な推論時間戦略に特化しています。ベストオブ N サンプリングとベストオブ N 脱獄では、N 個の応答がモデルからサンプリングされ、最も高い報酬または最も低い報酬を持つものが選択されます。
私たちはこれらの戦略に対する具体的な変換を提案し、私たちのフレームワークが言語モデルの調整のための既存の最先端の方法に比べて大幅な改善を提供することを実証します。
経験的に、人間の有用性と無害性のダイアログ ベンチマーク データセットに対する推論時の勝率は、推論時のデコードを考慮せずに設計されたベースラインよりも 8 ~ 12% および 4 ~ 9% 優れています。

要約(オリジナル)

Language model alignment has become a critical step in training modern generative language models. The goal of alignment is to finetune a reference model such that the win rate of a sample from the aligned model over a sample from the reference model is high, subject to a KL divergence constraint. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. However, the alignment objective does not capture such inference-time decoding procedures. We show that the existing alignment framework is sub-optimal in view of such inference-time methods. We then modify the alignment objective and propose a framework for inference-aware alignment (IAPO). We prove that for any inference-time decoding algorithm, the optimal solution that optimizes the inference-time win rate of the aligned policy against the reference policy is the solution to the typical RLHF problem with a transformation of the reward. This motivates us to provide the KL-regularized calibrate-and-transform RL (CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. We particularize our study to two important inference-time strategies: best-of-N sampling and best-of-N jailbreaking, where N responses are sampled from the model and the one with the highest or lowest reward is selected. We propose specific transformations for these strategies and demonstrate that our framework offers significant improvements over existing state-of-the-art methods for language model alignment. Empirically, we outperform baselines that are designed without taking inference-time decoding into consideration by 8-12% and 4-9% on inference-time win rates over the Anthropic helpfulness and harmlessness dialog benchmark datasets.

arxiv情報

著者 Ananth Balashankar,Ziteng Sun,Jonathan Berant,Jacob Eisenstein,Michael Collins,Adrian Hutter,Jong Lee,Chirag Nagpal,Flavien Prost,Aradhana Sinha,Ananda Theertha Suresh,Ahmad Beirami
発行日 2024-12-30 09:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT パーマリンク