ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF

要約

この研究では、言語モデル (LM) のテキスト生成を望ましい動作に向け、生成されたテキストを人間のオペレーターの好みに合わせて調整するという問題に取り組みます。
私たちは、さらにラベル付けされたデータを必要とせず、ユーザーの好みを表すはい/いいえの質問のプロンプトのおかげで、ゼロショットの方法で、命令調整された別の言語モデルを批評家報酬モデルとして使用することを提案します。
このゼロショット報酬モデルは、AI フィードバックからの強化学習 (RLAIF) を使用してベース LM をさらに微調整するための学習信号を提供します。
さらに、私たちのアプローチは、品質と多様性の検索などの他のコンテキストにも適合します。
提案された ZYN フレームワークの機能の広範な証拠は、解毒を含むテキスト生成に関連するさまざまなドメインでの実験を通じて提供されます。
映画レビューの感情やその他の属性を最適化する。
モデルが持つ可能性のある特定のトピックについて意見をまとめる。
テキストから画像へのタスク用のプロンプト ジェネレーターをパーソナライズします。
コードは \url{https://github.com/vicgalle/zero-shot-reward-models/} で入手できます。

要約(オリジナル)

In this work, we address the problem of directing the text generation of a language model (LM) towards a desired behavior, aligning the generated text with the preferences of the human operator. We propose using another, instruction-tuned language model as a critic reward model in a zero-shot way thanks to the prompt of a Yes-No question that represents the user preferences, without requiring further labeled data. This zero-shot reward model provides the learning signal to further fine-tune the base LM using Reinforcement Learning from AI Feedback (RLAIF); yet our approach is also compatible in other contexts such as quality-diversity search. Extensive evidence of the capabilities of the proposed ZYN framework is provided through experiments in different domains related to text generation, including detoxification; optimizing sentiment of movie reviews, or any other attribute; steering the opinion about a particular topic the model may have; and personalizing prompt generators for text-to-image tasks. Code available at \url{https://github.com/vicgalle/zero-shot-reward-models/}.

arxiv情報

著者 Victor Gallego
発行日 2023-12-14 14:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク