Noise Contrastive Alignment of Language Models with Explicit Rewards

要約

ユーザの意図は通常、言語モデル(LM)を微調整する際に最大化される評価報酬として形式化される。直接選好最適化(DPO)のような既存のアライメント手法は、主に、報酬が明示的に与えられるのではなく、暗黙的に定義されるペアワイズ選好データ用に調整されている。本論文では、スカラー評価で明示的にアノテーションされた報酬データセットを扱う際のギャップを埋めるために、ノイズ対照推定(Noise Contrastive Estimation: NCE)を活用したLMアライメントの一般的なフレームワークを紹介する。本フレームワークは、NCAとInfoNCAという2つの並列アルゴリズムから構成され、報酬データと嗜好データからLMポリシーを直接抽出することを可能にする。注目すべきは、DPO損失が、我々の提案するInfoNCA目的の特別な場合であることを示すことである。NCAとInfoNCAを比較することで、DPO/InfoNCAでよく観察される尤度の減少傾向は、異なる回答間の相対的尤度の調整に重点を置いていることに起因することを示す。対照的に、NCAは各回答の絶対尤度を最適化することで、選択された尤度の減少を効果的に防ぐ。Mistral-8*7Bと7Bモデルを用いて、報酬設定と選好設定の両方で我々の手法を評価した。実験の結果、報酬データセットが利用可能な場合、InfoNCA/NCAは様々な選好ベースラインを上回ることが示唆された。また、数学やコーディングのような複雑な推論タスクでは、NCAがDPOを大幅に上回ることが分かる。

要約(オリジナル)

User intentions are typically formalized as evaluation rewards to be maximized when fine-tuning language models (LMs). Existing alignment methods, such as Direct Preference Optimization (DPO), are mainly tailored for pairwise preference data where rewards are implicitly defined rather than explicitly given. In this paper, we introduce a general framework for LM alignment, leveraging Noise Contrastive Estimation (NCE) to bridge the gap in handling reward datasets explicitly annotated with scalar evaluations. Our framework comprises two parallel algorithms, NCA and InfoNCA, both enabling the direct extraction of an LM policy from reward data as well as preference data. Notably, we show that the DPO loss is a special case of our proposed InfoNCA objective under pairwise preference settings, thereby integrating and extending current alignment theories. By comparing NCA and InfoNCA, we demonstrate that the well-observed decreasing-likelihood trend of DPO/InfoNCA is caused by their focus on adjusting relative likelihood across different responses. In contrast, NCA optimizes the absolute likelihood for each response, thereby effectively preventing the chosen likelihood from decreasing. We evaluate our methods in both reward and preference settings with Mistral-8*7B and 7B models. Experiments suggest that InfoNCA/NCA surpasses various preference baselines when reward datasets are available. We also find NCA significantly outperforms DPO in complex reasoning tasks like math and coding.

arxiv情報

著者 Huayu Chen,Guande He,Lifan Yuan,Ganqu Cui,Hang Su,Jun Zhu
発行日 2024-07-03 13:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク