要約
大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクに優れていますが、特に上位 20 ドルを超える言語では、既存のベンチマークと指標の制限により、その評価は依然として不十分です。
他のモデルの出力をランク付けまたはスコア付けするための評価者として LLM を採用することは、ヒューマン アノテーターと確立されたベンチマークに関連付けられた制約に対処する実行可能なソリューションとして浮上します。
この研究では、LLM ベースの評価器、特に 3 つのテキスト生成タスク、5 つのメトリック、および 8 つの言語にわたる 20,000 ドルの人間の判断に照らして評価を調整することにより、多言語評価を強化する GPT-4 の可能性を探ります。
私たちの分析では、GPT4 ベースの評価者がより高いスコアを目指す傾向にあることが明らかになり、多様な言語間で LLM パフォーマンスを正確に評価するには、特に低リソース言語や非ラテン文字言語では、ネイティブ スピーカーの判断による調整の必要性が強調されます。
要約(オリジナル)
Large Language Models (LLMs) excel in various Natural Language Processing (NLP) tasks, yet their evaluation, particularly in languages beyond the top $20$, remains inadequate due to existing benchmarks and metrics limitations. Employing LLMs as evaluators to rank or score other models’ outputs emerges as a viable solution, addressing the constraints tied to human annotators and established benchmarks. In this study, we explore the potential of LLM-based evaluators, specifically GPT-4 in enhancing multilingual evaluation by calibrating them against $20$K human judgments across three text-generation tasks, five metrics, and eight languages. Our analysis reveals a bias in GPT4-based evaluators towards higher scores, underscoring the necessity of calibration with native speaker judgments, especially in low-resource and non-Latin script languages, to ensure accurate evaluation of LLM performance across diverse languages.
arxiv情報
著者 | Rishav Hada,Varun Gumma,Adrian de Wynter,Harshita Diddee,Mohamed Ahmed,Monojit Choudhury,Kalika Bali,Sunayana Sitaram |
発行日 | 2024-02-13 09:10:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google