ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF


この研究では、言語モデル (LM) のテキスト生成を望ましい動作に向け、生成されたテキストを人間のオペレーターの好みに合わせて調整するという問題に取り組みます。
このゼロショット報酬モデルは、AI フィードバックからの強化学習 (RLAIF) を使用してベース LM をさらに微調整するための学習信号を提供します。
提案された ZYN フレームワークの機能の広範な証拠は、解毒を含むテキスト生成に関連するさまざまなドメインでの実験を通じて提供されます。
テキストから画像へのタスク用のプロンプト ジェネレーターをパーソナライズします。
コードは \url{https://github.com/vicgalle/zero-shot-reward-models/} で入手できます。


In this work, we address the problem of directing the text generation of a language model (LM) towards a desired behavior, aligning the generated text with the preferences of the human operator. We propose using another, instruction-tuned language model as a critic reward model in a zero-shot way thanks to the prompt of a Yes-No question that represents the user preferences, without requiring further labeled data. This zero-shot reward model provides the learning signal to further fine-tune the base LM using Reinforcement Learning from AI Feedback (RLAIF); yet our approach is also compatible in other contexts such as quality-diversity search. Extensive evidence of the capabilities of the proposed ZYN framework is provided through experiments in different domains related to text generation, including detoxification; optimizing sentiment of movie reviews, or any other attribute; steering the opinion about a particular topic the model may have; and personalizing prompt generators for text-to-image tasks. Code available at \url{https://github.com/vicgalle/zero-shot-reward-models/}.


著者 Victor Gallego
発行日 2023-12-14 14:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク