A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors

要約

人間が読み手として判断した文字列の品質と、言語モデルのもとでの確率$p(˶‾᷄ -̫ ‾᷅˵)$の関係は、より良い言語モデルの開発の基礎となっています。例えば、言語モデルからサンプリングするための多くの一般的なアルゴリズムは、$p( \boldsymbol{y})$ を操作して、人間が高品質と判断する文字列により高い確率を置くことを目的として考案されています。本稿では、人間のフィードバックによる強化学習など、人間の嗜好に明示的に合わせた言語モデルにおける確率と品質の関係を調べる。アラインメントされた言語モデルからコーパスをサンプリングする場合、文字列の平均報酬と、事前言語モデル、すなわち人間の嗜好にアラインメントする前の同じモデルの下での平均対数尤度との間にトレードオフが存在することを示す。この現象の形式的な取り扱いを提供し、サンプリングアダプターの選択により、どの程度の尤度を報酬と交換するかを選択できることを示す。

要約(オリジナル)

The relationship between the quality of a string, as judged by a human reader, and its probability, $p(\boldsymbol{y})$ under a language model undergirds the development of better language models. For example, many popular algorithms for sampling from a language model have been conceived with the goal of manipulating $p(\boldsymbol{y})$ to place higher probability on strings that humans deem of high quality. In this article, we examine the probability–quality relationship in language models explicitly aligned to human preferences, e.g., through reinforcement learning through human feedback. We show that, when sampling corpora from an aligned language model, there exists a trade-off between the strings’ average reward and average log-likelihood under the prior language model, i.e., the same model before alignment with human preferences. We provide a formal treatment of this phenomenon and demonstrate how a choice of sampling adaptor allows for a selection of how much likelihood we exchange for the reward.

arxiv情報

著者 Naaman Tan,Josef Valvoda,Tianyu Liu,Anej Svete,Yanxia Qin,Kan Min-Yen,Ryan Cotterell
発行日 2024-09-03 06:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク