RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

要約

私たちは、人間のフィードバックを使用せずに自然言語原則に従うように言語モデルを調整する方法である、コントラスト蒸留による強化学習 (RLCD) を提案します。
RLCD は、対照的な肯定的プロンプトと否定的プロンプトを使用して生成された、高品質と低品質の両方の例を含むシミュレートされた嗜好ペアを使用して嗜好モデルをトレーニングします。
次に、この好みモデルを使用して、強化学習を通じて基本的な非調整言語モデルを改善します。
経験的に、RLCD は、無害性、有用性、ストーリー概要の生成という 3 つの多様な調整タスクにわたって、また嗜好データ シミュレーションの 7B モデル スケールと 30B モデル スケールの両方において、RLAIF (Bai et al., 2022b) およびコンテキスト蒸留 (Huang et al., 2022) のベースラインよりも優れています。

要約(オリジナル)

We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks–harmlessness, helpfulness, and story outline generation–and on both 7B and 30B model scales for preference data simulation.

arxiv情報

著者 Kevin Yang,Dan Klein,Asli Celikyilmaz,Nanyun Peng,Yuandong Tian
発行日 2023-07-24 17:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク