Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge

要約

大規模言語モデル (LLM) は機械学習の状況に革命をもたらしましたが、現在のベンチマークでは、現実世界のアプリケーションにおけるこれらのモデルの多様な動作を捉えるには不十分なことがよくあります。
ベンチマークの有用性は、さまざまな機能のモデルを明確に区別し (分離可能性)、人間の好みに厳密に合わせる能力によって決まります。
Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} や Arena-Hard v0.1 \cite{li2024crowdsourced} などの既存のフレームワークは、汎用クエリに焦点を当てていることと、法律、医学、多言語コンテキストなどのドメインにわたる多様性の欠如によって制限されています。

このペーパーでは、LLM-as-a-Judge フレームワークに合わせて調整された多様なドメイン固有の評価セットを厳選する新しいデータ パイプラインを導入することで、これらの制限に対処します。
私たちのアプローチは、手動によるキュレーション、クラスターを生成するための半教師あり学習、層別サンプリングの組み合わせを活用して、幅広いドメインと言語にわたってバランスの取れた表現を保証します。
結果として得られた評価セットには、14 カテゴリにわたる 1573 個のサンプルが含まれており、上位 10 個のモデルにわたって高い分離性 (84\%)、チャットボット アリーナとの一致 (84\%) およびスピアマン相関 (0.915) が示されています。
一致値は、Arena Hard より 9\%、AlpacaEval 2.0 LC より 20\% 優れています。一方、Spearman 係数は、次に優れたベンチマークより 0.7 高く、ベンチマークの有用性が大幅に向上していることがわかります。
さらに、ユーザー定義のカテゴリ全体でモデルのパフォーマンスを詳細に分析できるオープンソースの評価ツールを提供し、実務者に貴重な洞察を提供します。
この研究は、LLM 評価方法の透明性、多様性、有効性を強化するための継続的な取り組みに貢献します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark’s usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.

arxiv情報

著者 Ravi Raju,Swayambhoo Jain,Bo Li,Jonathan Li,Urmish Thakker
発行日 2024-08-20 02:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク