要約
「LLM-as-a-judge」パラダイムは、伝統的に人間によって行われたタスクでのアノテーターおよび評価者として大規模な言語モデル(LLM)を採用しています。
LLMアノテーションは、NLPの研究だけでなく、医学、心理学、社会科学などの分野でも広く使用されています。
研究の結果と洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的または厳密な手順はありません。
このホワイトペーパーでは、LLMアノテーションを使用して正当化するために注釈付き例の控えめなサブセットのみを必要とする新しい統計的手順(代替アノテーターテスト(ALTテスト))を提案します。
さらに、LLM審査員を比較するための多目的で解釈可能な尺度を紹介します。
手順を実証するために、言語とビジョン言語のタスクで構成される10個のデータセットの多様なコレクションをキュレーションし、6つのLLMSと4つのプロンプト技術で実験を実施しました。
私たちの結果は、LLMが人間をクローズドソースLLM(GPT-4Oなど)に置き換え、オープンソースLLMを上回ることがあり、促す技術がさまざまな品質の裁判官をもたらすことを示しています。
この研究が、より厳密で信頼できる実践を奨励することを願っています。
要約(オリジナル)
The ‘LLM-as-a-judge’ paradigm employs Large Language Models (LLMs) as annotators and evaluators in tasks traditionally performed by humans. LLM annotations are widely used, not only in NLP research but also in fields like medicine, psychology, and social science. Despite their role in shaping study results and insights, there is no standard or rigorous procedure to determine whether LLMs can replace human annotators. In this paper, we propose a novel statistical procedure — the Alternative Annotator Test (alt-test) — that requires only a modest subset of annotated examples to justify using LLM annotations. Additionally, we introduce a versatile and interpretable measure for comparing LLM judges. To demonstrate our procedure, we curated a diverse collection of ten datasets, consisting of language and vision-language tasks, and conducted experiments with six LLMs and four prompting techniques. Our results show that LLMs can sometimes replace humans with closed-source LLMs (such as GPT-4o), outperforming open-source LLMs, and that prompting techniques yield judges of varying quality. We hope this study encourages more rigorous and reliable practices.
arxiv情報
著者 | Nitay Calderon,Roi Reichart,Rotem Dror |
発行日 | 2025-02-05 15:24:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google