RLVF: Learning from Verbal Feedback without Overgeneralization

要約

大規模言語モデル (LLM) がデプロイされるコンテキストの多様性には、微妙な要件や設定を組み込むためにデフォルトのモデルの動作を変更またはカスタマイズする機能が必要です。
このようなモデルの調整を指定するための便利なインターフェイスは、「上司へのメールの下書きには絵文字を使用しないでください」などの高レベルの口頭フィードバックです。
ただし、高レベルのフィードバックを記述することは、人間のフィードバック (RLHF) から強化学習用のアノテーションを収集するよりもはるかに簡単ですが、そのようなフィードバックを単にモデルにプロンプ​​トするだけでは、関連性のないコンテキストへのフィードバックが過度に一般化されることにつながることがわかりました。
私たちは、そのような過度な一般化をせずに口頭によるフィードバックを組み込む問題を研究し、制約付き嗜好最適化によるコンテキスト化された批評 (C3PO) という新しい手法を考案しました。
C3PO は、高レベルのフィードバックを使用して、フィードバックをどのように適用するか (および適用しないか) を指定する小さな合成嗜好データセットを生成します。
次に、フィードバックが適用されないプロンプトについては、元のモデルからの乖離を最小限に抑えながら、合成嗜好データに従ってモデルを微調整します。
私たちの実験結果は、私たちのアプローチが、他のコンテキストに対する既存の行動を維持しながら、関連するシナリオに言葉によるフィードバックを効果的に適用することを示しています。
人間と GPT-4 が生成した高レベルのフィードバックの両方について、C3PO は、過度の一般化を 30% 削減しながら、コンテキスト内のベースラインに匹敵するほど、与えられたフィードバックを効果的に遵守します。

要約(オリジナル)

The diversity of contexts in which large language models (LLMs) are deployed requires the ability to modify or customize default model behaviors to incorporate nuanced requirements and preferences. A convenient interface to specify such model adjustments is high-level verbal feedback, such as ‘Don’t use emojis when drafting emails to my boss.’ However, while writing high-level feedback is far simpler than collecting annotations for reinforcement learning from human feedback (RLHF), we find that simply prompting a model with such feedback leads to overgeneralization of the feedback to contexts where it is not relevant. We study the problem of incorporating verbal feedback without such overgeneralization, inspiring a new method Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level feedback to generate a small synthetic preference dataset specifying how the feedback should (and should not) be applied. It then fine-tunes the model in accordance with the synthetic preference data while minimizing the divergence from the original model for prompts where the feedback does not apply. Our experimental results indicate that our approach effectively applies verbal feedback to relevant scenarios while preserving existing behaviors for other contexts. For both human- and GPT-4-generated high-level feedback, C3PO effectively adheres to the given feedback comparably to in-context baselines while reducing overgeneralization by 30%.

arxiv情報

著者 Moritz Stephan,Alexander Khazatsky,Eric Mitchell,Annie S Chen,Sheryl Hsu,Archit Sharma,Chelsea Finn
発行日 2024-02-16 18:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク