Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

要約

多言語の大規模な言語モデル(MLLM)の生成能力と言語カバレッジが急速に進んでいます。
ただし、MLLMの生成能力の評価慣行は、MLLMの開発を有意義に導く可能性を損なう研究室全体で、包括性、科学的厳密さ、一貫した採用が依然として欠けています。
同様の課題に直面し、数十年にわたって多言語生成モデルの透明な報告基準と信頼できる評価を開発した分野である、機械翻訳(MT)評価との類似点を描きます。
生成評価パイプラインの重要な段階にわたるターゲット実験を通じて、MT評価からのベストプラクティスがモデル間の品質の違いの理解を深める方法を示します。
さらに、MLLMの堅牢なメタ評価に不可欠なコンポーネントを特定し、評価方法自体が厳密に評価されるようにします。
これらの洞察を、MLLMの研究開発に関する実用的な推奨事項のチェックリストに蒸留します。

要約(オリジナル)

Generation capabilities and language coverage of multilingual large language models (mLLMs) are advancing rapidly. However, evaluation practices for generative abilities of mLLMs are still lacking comprehensiveness, scientific rigor, and consistent adoption across research labs, which undermines their potential to meaningfully guide mLLM development. We draw parallels with machine translation (MT) evaluation, a field that faced similar challenges and has, over decades, developed transparent reporting standards and reliable evaluations for multilingual generative models. Through targeted experiments across key stages of the generative evaluation pipeline, we demonstrate how best practices from MT evaluation can deepen the understanding of quality differences between models. Additionally, we identify essential components for robust meta-evaluation of mLLMs, ensuring the evaluation methods themselves are rigorously assessed. We distill these insights into a checklist of actionable recommendations for mLLM research and development.

arxiv情報

著者 Julia Kreutzer,Eleftheria Briakou,Sweta Agrawal,Marzieh Fadaee,Kocmi Tom
発行日 2025-04-16 07:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク