Contamination Report for Multilingual Benchmarks

要約

ベンチマークの汚染とは、大規模言語モデル (LLM) のトレーニング前またはトレーニング後のデータにテスト データセットが存在することを指します。
汚染によりベンチマークのスコアが膨らみ、評価結果が損なわれ、モデルの機能を判断することが困難になる可能性があります。
この研究では、複数の言語をサポートする LLM における一般的な多言語ベンチマークの汚染を研究します。
私たちはブラック ボックス テストを使用して、頻繁に使用される $7$ の多言語ベンチマークが $7$ の一般的なオープン LLM とクローズド LLM に汚染されているかどうかを判断し、ほぼすべてのモデルが、テストしたほぼすべてのベンチマークで汚染されている兆候を示していることを発見しました。
私たちの調査結果は、コミュニティが多言語評価に使用する最適なベンチマーク セットを決定するのに役立ちます。

要約(オリジナル)

Benchmark contamination refers to the presence of test datasets in Large Language Model (LLM) pre-training or post-training data. Contamination can lead to inflated scores on benchmarks, compromising evaluation results and making it difficult to determine the capabilities of models. In this work, we study the contamination of popular multilingual benchmarks in LLMs that support multiple languages. We use the Black Box test to determine whether $7$ frequently used multilingual benchmarks are contaminated in $7$ popular open and closed LLMs and find that almost all models show signs of being contaminated with almost all the benchmarks we test. Our findings can help the community determine the best set of benchmarks to use for multilingual evaluation.

arxiv情報

著者 Sanchit Ahuja,Varun Gumma,Sunayana Sitaram
発行日 2024-10-21 16:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク