LLM-as-a-Judge & Reward Model: What They Can and Cannot Do

要約

LLM-as-a-Judge および報酬モデルは、大規模言語モデル (LLM) 評価のための多肢選択式質問やヒューマン アノテーターの代替として広く使用されています。
その有効性は長い形式の応答を評価する際に威力を発揮し、リーダーボードの評価者として、また強化学習を通じて LLM を調整する代理人として重要な役割を果たします。
しかし、その人気にもかかわらず、英語以外でのその有効性はほとんど解明されていません。
このペーパーでは、自動評価器に関する包括的な分析を実施し、非英語環境での自動評価器の動作に関する重要な結果を報告します。
まず、英語の評価能力が言語固有の能力に大きく影響し、多くの場合、言語熟練度そのもの以上に影響を及ぼし、英語で訓練を受けた評価者がそのスキルを他の言語に簡単に移転できるようになることがわかりました。
第 2 に、LLM が事実の不正確さ、文化的な誤った表現、望ましくない言語の存在などのエラーを検出して罰することができないという重大な欠点を特定します。
最後に、韓国語による 5,012 個の人間による注釈を含む初の非英語メタ評価データセットである Kudge をリリースします。

要約(オリジナル)

LLM-as-a-Judge and reward models are widely used alternatives of multiple-choice questions or human annotators for large language model (LLM) evaluation. Their efficacy shines in evaluating long-form responses, serving a critical role as evaluators of leaderboards and as proxies to align LLMs via reinforcement learning. However, despite their popularity, their effectiveness outside of English remains largely unexplored. In this paper, we conduct a comprehensive analysis on automated evaluators, reporting key findings on their behavior in a non-English environment. First, we discover that English evaluation capabilities significantly influence language-specific capabilities, often more than the language proficiency itself, enabling evaluators trained in English to easily transfer their skills to other languages. Second, we identify critical shortcomings, where LLMs fail to detect and penalize errors, such as factual inaccuracies, cultural misrepresentations, and the presence of unwanted language. Finally, we release Kudge, the first non-English meta-evaluation dataset containing 5,012 human annotations in Korean.

arxiv情報

著者 Guijin Son,Hyunwoo Ko,Hoyoung Lee,Yewon Kim,Seunghyeok Hong
発行日 2024-09-17 14:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク