要約
大規模な言語モデルは、広範囲にわたるダウンストリーム アプリケーションで効果的であることが証明されていますが、多くの場合、問題のあるテキストや必要な属性が欠けているテキストが生成されます。
この論文では、小規模な一方向報酬モデルを使用して言語モデルに特定の特性を持つテキストの生成を促すテキスト生成手順である報酬拡張デコーディング (RAD) を紹介します。
具体的には、RAD は報酬モデルを使用して生成時に世代をスコア化し、高報酬トークンを優先するようにサンプリング確率を再スケールします。
単方向報酬モデルを使用することにより、RAD は前の生成ステップからのアクティベーションをキャッシュして、計算オーバーヘッドを削減できます。
毒性のない感情制御されたテキストを生成する実験を通じて、生成手順のみを変更する方法の中で RAD が最高のパフォーマンスを発揮し、言語モデルの再トレーニングを伴う最先端の方法のパフォーマンスに匹敵することを実証しました。
さらに、RAD が非常に大規模な言語モデルに対して効果的である一方で、発生する計算オーバーヘッドが最小限に抑えられることを検証します。
要約(オリジナル)
While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.
arxiv情報
著者 | Haikang Deng,Colin Raffel |
発行日 | 2024-01-02 00:04:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google