要約
人間の読者によって判断される文字列の品質と、言語モデルに基づくその確率 $p(\boldsymbol{y})$ との関係は、より良い言語モデルの開発を支えます。
たとえば、言語モデルからサンプリングするための一般的なアルゴリズムの多くは、$p(\boldsymbol{y})$ を操作して、人間が高品質と判断する文字列に高い確率を設定することを目的として考案されています。
この記事では、人間のフィードバックによる強化学習などを通じて、人間の好みに明示的に合わせた言語モデルにおける確率と品質の関係を検証します。
調整された言語モデルからコーパスをサンプリングする場合、以前の言語モデル、つまり人間の好みに調整する前の同じモデルの下では、文字列の平均報酬と平均対数尤度の間にトレードオフが存在することを示します。
私たちはこの現象を正式に扱い、サンプリング アダプターを選択することで報酬と交換する確率をどのように選択できるかを示します。
要約(オリジナル)
The relationship between the quality of a string, as judged by a human reader, and its probability, $p(\boldsymbol{y})$ under a language model undergirds the development of better language models. For example, many popular algorithms for sampling from a language model have been conceived with the goal of manipulating $p(\boldsymbol{y})$ to place higher probability on strings that humans deem of high quality. In this article, we examine the probability–quality relationship in language models explicitly aligned to human preferences, e.g., through reinforcement learning through human feedback. We show that, when sampling corpora from an aligned language model, there exists a trade-off between the strings’ average reward and average log-likelihood under the prior language model, i.e., the same model before alignment with human preferences. We provide a formal treatment of this phenomenon and demonstrate how a choice of sampling adaptor allows for a selection of how much likelihood we exchange for the reward.
arxiv情報
著者 | Naaman Tan,Josef Valvoda,Tianyu Liu,Anej Svete,Yanxia Qin,Kan Min-Yen,Ryan Cotterell |
発行日 | 2024-10-28 16:17:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google