From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge


評価と評価は、人工知能 (AI) と自然言語処理 (NLP) において長い間重要な課題でした。
ただし、従来の方法では、マッチング ベースであろうと埋め込みベースであろうと、微妙な属性を判断して満足のいく結果を得ることができないことがよくあります。
大規模言語モデル (LLM) の最近の進歩は、LLM を利用してさまざまなタスクやアプリケーションにわたってスコアリング、ランキング、または選択を実行する「裁判官としての LLM」パラダイムを刺激します。
このペーパーでは、LLM ベースの判断と評価の包括的な調査を提供し、この新興分野を前進させるための詳細な概要を提供します。
次に、何を判断するか、どのように判断するか、どこで判断するかという 3 つの側面から裁判官としての LLM を探求するための包括的な分類法を導入します。
最後に、裁判官としての LLM を評価するためのベンチマークをまとめ、重要な課題と有望な方向性を強調し、貴重な洞察を提供し、この有望な研究分野における将来の研究に刺激を与えることを目指しています。
LLM-as-a-judge に関する論文リストとその他のリソースは、\url{} および \url{ でご覧いただけます。}。


Assessment and evaluation have long been critical challenges in artificial intelligence (AI) and natural language processing (NLP). However, traditional methods, whether matching-based or embedding-based, often fall short of judging subtle attributes and delivering satisfactory results. Recent advancements in Large Language Models (LLMs) inspire the ‘LLM-as-a-judge’ paradigm, where LLMs are leveraged to perform scoring, ranking, or selection across various tasks and applications. This paper provides a comprehensive survey of LLM-based judgment and assessment, offering an in-depth overview to advance this emerging field. We begin by giving detailed definitions from both input and output perspectives. Then we introduce a comprehensive taxonomy to explore LLM-as-a-judge from three dimensions: what to judge, how to judge and where to judge. Finally, we compile benchmarks for evaluating LLM-as-a-judge and highlight key challenges and promising directions, aiming to provide valuable insights and inspire future research in this promising research area. Paper list and more resources about LLM-as-a-judge can be found at \url{} and \url{}.


著者 Dawei Li,Bohan Jiang,Liangjie Huang,Alimohammad Beigi,Chengshuai Zhao,Zhen Tan,Amrita Bhattacharjee,Yuxuan Jiang,Canyu Chen,Tianhao Wu,Kai Shu,Lu Cheng,Huan Liu
発行日 2025-01-06 05:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク