要約
使用する大規模な言語モデル(LLM)を決定することは、複雑な課題です。
ペアワイズランキングは、LLMの人間の好みを評価するための新しい方法として浮上しています。
このアプローチには、事前定義された基準に基づいてモデル出力のペアを評価する人間が必要です。
これらの比較を収集することにより、ELOなどの方法を使用してランキングを構築できます。
ただし、LLM評価のコンテキストで構築されたこれらのアルゴリズムを適用すると、いくつかの課題が生じます。
この論文では、LLMSの直接的な比較のためのランキングシステムの有効性を調査します。
効果的なランキングのための一連の基本原則を正式に定義し、LLMSのコンテキストでいくつかのランキングアルゴリズムの堅牢性について一連の広範な評価を実施します。
分析は、ランキングの精度と効率に影響を与える要因に関する重要な洞察を明らかにし、特定の評価コンテキストとリソースの制約に基づいて最も適切な方法を選択するためのガイドラインを提供します。
要約(オリジナル)
Deciding which large language model (LLM) to use is a complex challenge. Pairwise ranking has emerged as a new method for evaluating human preferences for LLMs. This approach entails humans evaluating pairs of model outputs based on a predefined criterion. By collecting these comparisons, a ranking can be constructed using methods such as Elo. However, applying these algorithms as constructed in the context of LLM evaluation introduces several challenges. In this paper, we explore the effectiveness of ranking systems for head-to-head comparisons of LLMs. We formally define a set of fundamental principles for effective ranking and conduct a series of extensive evaluations on the robustness of several ranking algorithms in the context of LLMs. Our analysis uncovers key insights into the factors that affect ranking accuracy and efficiency, offering guidelines for selecting the most appropriate methods based on specific evaluation contexts and resource constraints.
arxiv情報
著者 | Roland Daynauth,Christopher Clarke,Krisztian Flautner,Lingjia Tang,Jason Mars |
発行日 | 2025-02-17 16:21:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google