PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

要約

多言語大規模言語モデル (LLM) の評価は、さまざまな要因により困難です。たとえば、十分な言語多様性を備えたベンチマークの欠如、LLM の事前トレーニング データへの一般的なベンチマークの混入、翻訳されたベンチマークにおけるローカルな文化的ニュアンスの欠如などです。
この研究では、多言語、多文化環境における人間および LLM ベースの評価を研究します。
私たちは、90,000 人による評価と 30,000 の LLM ベースの評価を実施することで、10 のインド言語にわたる 30 のモデルを評価しました。その結果、GPT-4o や Llama-3 70B などのモデルが、ほとんどのインド言語で一貫して最高のパフォーマンスを発揮することがわかりました。
私たちは 2 つの評価設定 (ペアごとの比較と直接評価) のリーダーボードを構築し、人間と LLM の間の一致を分析します。
人間と LLM はペア設定ではかなりよく一致しますが、特にベンガル語やオーディアなどの言語の直接評価評価では一致が低下することがわかりました。
また、人間および LLM ベースの評価におけるさまざまなバイアスをチェックし、GPT ベースの評価者で自己バイアスの証拠を見つけます。
私たちの研究は、LLM の多言語評価をスケールアップするための重要な一歩を示しています。

要約(オリジナル)

Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors — the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings – pairwise comparison and direct assessment and analyse the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.

arxiv情報

著者 Ishaan Watts,Varun Gumma,Aditya Yadavalli,Vivek Seshadri,Manohar Swaminathan,Sunayana Sitaram
発行日 2024-06-21 11:00:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク