要約
大量のデータに基づいてトレーニングされた言語モデルは、場合によっては不適切なコンテンツを生成することが知られており、現実世界で使用するには慎重な調整が必要です。
タスク固有の報酬モデルからのスコアを使用して、言語モデルからの生成を制御する報酬拡張デコーディング (RAD) アプローチを再検討します。
RAD のトレーニング目的を調査し、報酬マトリックスを学習するタスクとして再定式化します。
RAD は報酬行列を表現する際に高い柔軟性をサポートするように設計されており、これがデコード中の計算コストの増加につながることを示します。
ただし、RAD がその柔軟性を最大限に活用していないことを示します。
これを動機として、我々は、高速かつ効果的なガイド付きデコーディングを可能にする、報酬モデルのよりシンプルだがより効率的な低ランクのパラメータ化を提案します。
無毒化タスクと感情制御タスクについては、生成されたトークンごとに 1 回の報酬モデル呼び出しのみを必要としながら、低ランクの報酬モデルがより柔軟な RAD パラメーター化と同等に機能することを示します。
要約(オリジナル)
Language models trained on large amounts of data are known to produce inappropriate content in some cases and require careful tuning to be used in the real world. We revisit the reward augmented decoding (RAD) approach to control the generation from a language model using the scores from a task-specific reward model. We investigate the training objective of RAD, and reformulate it as a task of learning a reward matrix. We show that RAD is designed to support high flexibility when representing the reward matrices, which leads to a higher computational costs during decoding. However, we demonstrate that RAD does not use its full flexibility. Motivated by this, we propose a simpler but more efficient low-rank parametrization of the reward model enabling fast and effective guided decoding. For the detoxification and sentiment control tasks, we show that our low-rank reward model performs on par with the more flexible RAD parametrization, while requiring only a single reward model call per generated token.
arxiv情報
著者 | Sergey Troshin,Vlad Niculae,Antske Fokkens |
発行日 | 2024-10-01 09:23:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google