要約
言語モデルにおける文字列の品質とその確率 $p(\boldsymbol{y})$ の関係は、優れたテキスト生成システムを構築する技術の開発に影響を与えてきました。
たとえば、いくつかのデコード アルゴリズムは $p(\boldsymbol{y})$ を操作して高品質のテキストを生成することを目的としています。
この研究では、ヒューマン フィードバックによる強化学習 (RLHF) などを通じて、人間の好みに明示的に合わせた言語モデルにおける確率と品質の関係を調べます。
一般的な言語モデルとその調整されたバージョンを考慮すると、調整された言語モデルからサンプリングされたコーパスについては、一般的な言語モデルに基づく文字列の平均報酬と平均対数尤度の間にトレードオフが存在することがわかりました。
私たちはこの問題を正式に扱い、サンプリング アダプターを選択することで報酬と交換する確率をどのように選択できるかを示します。
要約(オリジナル)
The relationship between the quality of a string and its probability $p(\boldsymbol{y})$ under a language model has been influential in the development of techniques to build good text generation systems. For example, several decoding algorithms have been motivated to manipulate $p(\boldsymbol{y})$ to produce higher-quality text. In this work, we examine the probability–quality relationship in language models explicitly aligned to human preferences, e.g., through Reinforcement Learning through Human Feedback (RLHF). We find that, given a general language model and its aligned version, for corpora sampled from an aligned language model, there exists a trade-off between the average reward and average log-likelihood of the strings under the general language model. We provide a formal treatment of this issue and demonstrate how a choice of sampling adaptor allows for a selection of how much likelihood we exchange for the reward.
arxiv情報
著者 | Naaman Tan,Josef Valvoda,Anej Svete,Tianyu Liu,Yanxia Qin,Kan Min-Yen,Ryan Cotterell |
発行日 | 2024-06-14 17:38:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google