Prediction-Powered Ranking of Large Language Models

要約

大規模な言語モデルは、人間の好みとの整合性のレベルに応じてランク付けされることがよくあります。そのモデルは、その出力が人間によってより頻繁に好まれる場合、他のモデルよりも優れています。
人間の好みを引き出す一般的な方法の 1 つは、同じ入力に対して異なるモデルによって提供される出力間のペアごとの比較を利用します。
ただし、人間によるペアごとの比較の収集にはコストと時間がかかるため、強力で大規模な言語モデル、つまり人間の好みに強く合わせたモデルによってペアごとの比較を収集することが一般的になっています。
驚くべきことに、実務家は現在、構築されたランキングに人間とモデルの好みの不一致がもたらす可能性がある不確実性を測定できません。
この研究では、このギャップを埋める統計フレームワークを開発します。
人間による (小規模な) ペアごとの比較と、モデルによる大きなセットのペアごとの比較が与えられると、私たちのフレームワークは、比較対象のモデルごとにランクセット (考えられる順位のセット) を提供します。
さらに、ユーザーが指定した値以上の確率で、ランクセットが人間のペアごとの選好の分布と一致する真のランキングを漸近的にカバーすることを保証します。
LMSYS Chatbot Arena プラットフォームで人間によって行われたペアごとの比較と、3 つの強力な大規模言語モデルによって行われたペアごとの比較を使用して、フレームワークの有効性を実証し、強力な大規模言語モデルによるペアごとの比較のみを使用して構築されたランクセットが次のとおりであることを示します。
多くの場合、人間のペアごとの好み(の分布)と一致しません。

要約(オリジナル)

Large language models are often ranked according to their level of alignment with human preferences — a model is better than other models if its outputs are more frequently preferred by humans. One of the popular ways to elicit human preferences utilizes pairwise comparisons between the outputs provided by different models to the same inputs. However, since gathering pairwise comparisons by humans is costly and time-consuming, it has become a common practice to gather pairwise comparisons by a strong large language model — a model strongly aligned with human preferences. Surprisingly, practitioners cannot currently measure the uncertainty that any mismatch between human and model preferences may introduce in the constructed rankings. In this work, we develop a statistical framework to bridge this gap. Given a (small) set of pairwise comparisons by humans and a large set of pairwise comparisons by a model, our framework provides a rank-set — a set of possible ranking positions — for each of the models under comparison. Moreover, it guarantees that, with a probability greater than or equal to a user-specified value, the rank-sets cover the true ranking consistent with the distribution of human pairwise preferences asymptotically. Using pairwise comparisons made by humans in the LMSYS Chatbot Arena platform and pairwise comparisons made by three strong large language models, we empirically demonstrate the effectivity of our framework and show that the rank-sets constructed using only pairwise comparisons by the strong large language models are often inconsistent with (the distribution of) human pairwise preferences.

arxiv情報

著者 Ivi Chatzi,Eleni Straitouri,Suhas Thejaswi,Manuel Gomez Rodriguez
発行日 2024-05-23 16:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG, stat.ML パーマリンク