GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking

要約

LLM-as-judge パラダイムは、モデル出力の自動評価に採用されることが増えています。
LLM の審査員は、制約付きの評価タスクに期待を示していますが、クローズドソース LLM は、きめ細かいメトリクスと説明可能性の課題により、実世界のアプリケーションに導入すると重大な欠点を示し、タスク固有の評価モデルにはクロスドメインの一般化が欠けています。
任意のユーザー定義基準に基づいてテキスト入力および関連するコンテキストをスコアリングできる強力な 3B エバリュエーター LLM である GLIDER を紹介します。
GLIDER は FLASK 上で GPT-4o よりも高いピアソン相関を示し、以前の評価モデルを大幅に上回り、17 倍のサイズの LLM に匹敵するパフォーマンスを達成しました。
GLIDER は、きめ細かいスコアリング、多言語推論、スパンの強調表示をサポートしており、685 のドメインと 183 の基準に基づいてトレーニングされています。
広範な定性分析により、GLIDER スコアは人間の判断と高度に相関しており、91.3% が人間の一致であることが示されています。
将来の研究を促進するために、私たちは GLIDER をオープンソースにしました。

要約(オリジナル)

The LLM-as-judge paradigm is increasingly being adopted for automated evaluation of model outputs. While LLM judges have shown promise on constrained evaluation tasks, closed source LLMs display critical shortcomings when deployed in real world applications due to challenges of fine grained metrics and explainability, while task specific evaluation models lack cross-domain generalization. We introduce GLIDER, a powerful 3B evaluator LLM that can score any text input and associated context on arbitrary user defined criteria. GLIDER shows higher Pearson’s correlation than GPT-4o on FLASK and greatly outperforms prior evaluation models, achieving comparable performance to LLMs 17x its size. GLIDER supports fine-grained scoring, multilingual reasoning, span highlighting and was trained on 685 domains and 183 criteria. Extensive qualitative analysis shows that GLIDER scores are highly correlated with human judgments, with 91.3% human agreement. We have open-sourced GLIDER to facilitate future research.

arxiv情報

著者 Darshan Deshpande,Selvan Sunitha Ravi,Sky CH-Wang,Bartosz Mielczarek,Anand Kannappan,Rebecca Qian
発行日 2024-12-18 18:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク