要約
生成 AI の急速な進歩を考慮すると、利用可能な多数のモデルと構成を系統的に比較して選択することが急務となっています。
このような評価の規模と多様性により、LLM ベースの審査員の利用は、この課題に対する魅力的な解決策となります。
重要なことは、このアプローチでは、まず LLM 審査員自体の品質を検証する必要があるということです。
これまでの研究は、LLM ジャッジのインスタンスベースの評価に焦点を当てていました。この評価では、ソース システムに依存せずに、一連の応答または応答ペアに対してジャッジが評価されます。
私たちは、この設定は、特定のシステムに対する裁判官の肯定的または否定的な偏見など、システムレベルのランキングに影響を与える重要な要素を見落としていると主張します。
このギャップに対処するために、私たちはシステム ランカーとして LLM 審査員を対象とした初の大規模調査を実施しました。
システム スコアは、複数のシステム出力の判定スコアを集計することによって生成され、結果として得られるシステム ランキングを人間ベースのランキングと比較することによって審査員の質が評価されます。
私たちの分析は、ジャッジ全体の評価を超えて、ジャッジの決断力や偏りなど、ジャッジの行動の詳細な特徴を提供します。
要約(オリジナル)
Given the rapid progress of generative AI, there is a pressing need to systematically compare and choose between the numerous models and configurations available. The scale and versatility of such evaluations make the use of LLM-based judges a compelling solution for this challenge. Crucially, this approach requires first to validate the quality of the LLM judge itself. Previous work has focused on instance-based assessment of LLM judges, where a judge is evaluated over a set of responses, or response pairs, while being agnostic to their source systems. We argue that this setting overlooks critical factors affecting system-level ranking, such as a judge’s positive or negative bias towards certain systems. To address this gap, we conduct the first large-scale study of LLM judges as system rankers. System scores are generated by aggregating judgment scores over multiple system outputs, and the judge’s quality is assessed by comparing the resulting system ranking to a human-based ranking. Beyond overall judge assessment, our analysis provides a fine-grained characterization of judge behavior, including their decisiveness and bias.
arxiv情報
著者 | Ariel Gera,Odellia Boni,Yotam Perlitz,Roy Bar-Haim,Lilach Eden,Asaf Yehudai |
発行日 | 2024-12-12 18:51:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google