Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives

要約

Bradley-Terry (BT) モデルは、大規模言語モデル (LLM) アラインメントの報酬モデリングにおける一般的で成功した手法です。
しかし、もともとマルチプレイヤーの確率的ゲームマッチングのために開発されたこのモデルが、ペアごとの応答比較を報酬値に変換し、予測を行うために採用できる理由は依然として不明です。
特に、限られた数の即時応答ペアだけが他のペアと比較してまばらであるという事実を考慮すると。
この論文では、まず報酬モデリングにおける BT モデルの使用の基礎を再検討し、埋め込みを使用したディープ ニューラル ネットワークに基づく BT 報酬モデルの収束率を確立し、その使用に対する理論的基盤を提供します。
理論的には健全であるにもかかわらず、下流の最適化の観点からは BT モデルは必要な選択ではないと私たちは主張します。
これは、報酬モデルでは、真の報酬の単調変換を通じて正しいランキング予測を保存するだけでよいためです。
報酬モデリングにおける順序の一貫性という重要な概念を強調し、BT モデルがこの特性を備えていることを実証します。
したがって、順序一貫性のある報酬モデリングの代替目標として、既製のバイナリ分類器と互換性のある、シンプルで直接的な上限アルゴリズムを提案します。
実用的な洞察を提供するために、6 ドルの基本 LLM、2 ドルのデータセット、および好みアノテーションの量、質、ペアリングの選択肢が異なる多様なアノテーション デザインを使用して、12,000 を超える実験セットアップにわたって、これらのさまざまな報酬モデリング アプローチのパフォーマンスを経験的に評価しています。

要約(オリジナル)

The Bradley-Terry (BT) model is a common and successful practice in reward modeling for Large Language Model (LLM) alignment. However, it remains unclear why this model — originally developed for multi-player stochastic game matching — can be adopted to convert pairwise response comparisons to reward values and make predictions. Especially given the fact that only a limited number of prompt-response pairs are sparsely compared with others. In this paper, we first revisit the foundations of using BT models in reward modeling, and establish the convergence rate of BT reward models based on deep neural networks using embeddings, providing a theoretical foundation for their use. Despite theoretically sound, we argue that the BT model is not a necessary choice from the perspective of downstream optimization. This is because a reward model only needs to preserve the correct ranking predictions through a monotonic transformation of the true reward. We highlight the critical concept of order consistency in reward modeling and demonstrate that the BT model possesses this property. Consequently, we propose a simple and straightforward upper-bound algorithm, compatible with off-the-shelf binary classifiers, as an alternative order-consistent reward modeling objective. To offer practical insights, we empirically evaluate the performance of these different reward modeling approaches across more than 12,000 experimental setups, using $6$ base LLMs, $2$ datasets, and diverse annotation designs that vary in quantity, quality, and pairing choices in preference annotations.

arxiv情報

著者 Hao Sun,Yunyi Shen,Jean-Francois Ton
発行日 2024-11-07 18:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク