REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities

要約

大規模な言語モデル(LLMS)の最近の進歩により、LLMを審査員として使用するという新しいパラダイムが導入されました。ここでは、LLMが別のLLMの出力を評価およびスコアリングします。
ただし、LLM-as-a-a-judgeの使用は主に英語で研究されています。
このホワイトペーパーでは、ロシアのエラータイプアノテーションデータセット(REPA)、1Kユーザークエリのデータセットと2K LLM生成応答のデータセットを導入することにより、ロシア語のこのフレームワークを評価します。
ヒトのアノテーターは、10の特定のエラータイプにわたって好みを表す各応答ペアをラベル付けし、全体的な好みを選択しました。
人間の好みに基づいて3つの評価システムを使用して、エラータイプ全体で6つの生成LLMをランク付けします。
また、ゼロショットと少数のショット設定で8人のLLM審査員を使用して回答を評価します。
裁判官と位置と長さのバイアスを分析した結果について説明します。
私たちの調査結果は、ロシア語と英語でのLLM裁判官のパフォーマンスの間に顕著なギャップを明らかにしています。
ただし、人間とLLMの好みに基づいたランキングは部分的な整合性を示しており、現在のLLM裁判官はロシア語でのきめの細かい評価に苦労しているが、改善の可能性があることを示唆しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have introduced the novel paradigm of using LLMs as judges, where an LLM evaluates and scores the outputs of another LLM, which often correlates highly with human preferences. However, the use of LLM-as-a-judge has been primarily studied in English. In this paper, we evaluate this framework in Russian by introducing the Russian Error tyPes Annotation dataset (REPA), a dataset of 1k user queries and 2k LLM-generated responses. Human annotators labeled each response pair expressing their preferences across ten specific error types, as well as selecting an overall preference. We rank six generative LLMs across the error types using three rating systems based on human preferences. We also evaluate responses using eight LLM judges in zero-shot and few-shot settings. We describe the results of analyzing the judges and position and length biases. Our findings reveal a notable gap between LLM judge performance in Russian and English. However, rankings based on human and LLM preferences show partial alignment, suggesting that while current LLM judges struggle with fine-grained evaluation in Russian, there is potential for improvement.

arxiv情報

著者 Alexander Pugachev,Alena Fenogenova,Vladislav Mikhailov,Ekaterina Artemova
発行日 2025-03-17 12:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク