Ranking Large Language Models without Ground Truth

要約

大規模言語モデル (LLM) の評価とランク付けは、これらのモデルの普及とその影響に伴い、重要な問題となっています。
評価方法は、取得にコストがかかる人間の応答を必要とするか、LLM のペアを使用して互いを評価するため、信頼性が低い可能性があります。
この論文では、プロンプトのデータセット (つまり、質問、指示など) と LLM のセットが与えられた場合に、グラウンド トゥルースや参照応答にアクセスせずにそれらをランク付けするという新しい視点を提供します。
専門家と知識のある人の両方が初心者を識別できる現実の生活からインスピレーションを得た私たちの主なアイデアは、モデルのトリプレットを考慮し、各モデルが他の 2 つを評価し、トリプレット内の最悪のモデルを高い確率で正確に識別することです。
また、アイデアを分析し、それが成功するための十分な条件を提供します。
この考え方を繰り返し適用して、LLM をランク付けする 2 つの方法を提案します。
さまざまな生成タスク (要約、多肢選択、対話) の実験では、私たちの方法は参照データなしで真に近いランキングを確実に回復します。
これは、実用化に向けた実行可能な低リソースメカニズムを示しています。

要約(オリジナル)

Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.

arxiv情報

著者 Amit Dhurandhar,Rahul Nair,Moninder Singh,Elizabeth Daly,Karthikeyan Natesan Ramamurthy
発行日 2024-06-10 16:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク