要約
チャットの相互作用を通じてさまざまなタスクを解決できる生成大型言語モデル(LLMS)のブレークスルーにより、一般的なベンチマークの使用が大幅に増加し、個々のアプリケーションを超えてこれらのモデルの品質またはパフォーマンスを評価しました。
また、公開されている新しいモデルの数が増え続けるため、評価するためのより良い方法やモデルを比較する必要があります。
ただし、確立されたベンチマークのほとんどは英語を中心に展開しています。
このペーパーでは、現在の評価データセットの利点と制限を分析し、多言語のヨーロッパのベンチマークに焦点を当てています。
7つの多言語ベンチマークを分析し、4つの主要な課題を特定します。
さらに、翻訳の品質を高め、ループ内の検証や反復翻訳ランキングなど、文化的バイアスを軽減する潜在的なソリューションについて説明します。
私たちの分析では、多言語LLMの推論と疑問能力を正確に評価するために、文化的に認識され、厳密に検証されたベンチマークの必要性を強調しています。
要約(オリジナル)
The breakthrough of generative large language models (LLMs) that can solve different tasks through chat interaction has led to a significant increase in the use of general benchmarks to assess the quality or performance of these models beyond individual applications. There is also a need for better methods to evaluate and also to compare models due to the ever increasing number of new models published. However, most of the established benchmarks revolve around the English language. This paper analyses the benefits and limitations of current evaluation datasets, focusing on multilingual European benchmarks. We analyse seven multilingual benchmarks and identify four major challenges. Furthermore, we discuss potential solutions to enhance translation quality and mitigate cultural biases, including human-in-the-loop verification and iterative translation ranking. Our analysis highlights the need for culturally aware and rigorously validated benchmarks to assess the reasoning and question-answering capabilities of multilingual LLMs accurately.
arxiv情報
著者 | Fabio Barth,Georg Rehm |
発行日 | 2025-04-02 16:57:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google