Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

要約

大規模言語モデル (LLM) は、質問応答、要約、分類などの自然言語処理 (NLP) タスクで優れたパフォーマンスを示しています。
適切なベンチマーク、メトリクス、コスト、ヒューマン アノテーターへのアクセスの欠如など、現在の評価手法の限界により、他のモデル (通常は LLM) の出力をランク付けまたはスコア付けできる評価者として LLM を使用することがますます一般的になってきています。

LLM は約 100 の言語を処理できますが、上位 20 言語を超える言語の大部分には、さまざまなタスク、指標、ベンチマークにわたる体系的な評価が欠けています。
このため、さまざまな言語にわたる LLM パフォーマンスを正確に理解できるように、多言語評価をスケールアップする緊急の必要性が生じています。
LLM ベースの評価器は、人間によるアノテーター、人間が作成した参照、ベンチマークを必要とせず、理論的には LLM でカバーされるあらゆる言語の評価に使用できるため、この問題に対する完璧な解決策のように思えます。
このペーパーでは、LLM ベースの評価ツールが多言語評価のスケールアップに役立つかどうかを調査します。
具体的には、8 言語の 3 つのテキスト生成タスクにわたる 5 つの指標の 20,000 件の人間の判断に対して、LLM ベースの評価を調整します。
私たちの調査結果は、LLM ベースの評価者はより高いスコアへの偏りを示す可能性があり、特にリソースの少ない非ラテン文字言語では、慎重に使用する必要があり、常にネイティブ スピーカーの判断のデータセットで調整する必要があることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.

arxiv情報

著者 Rishav Hada,Varun Gumma,Adrian de Wynter,Harshita Diddee,Mohamed Ahmed,Monojit Choudhury,Kalika Bali,Sunayana Sitaram
発行日 2023-09-14 06:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク