要約
大規模な言語モデルの普及に伴い、言語モデル評価におけるデータ汚染がますます蔓延しています。
これにより、モデルは真の機能を表示する代わりに、記憶によって「不正行為」を行うことができます。
したがって、汚染分析は、結果を検証するための信頼できるモデル評価の重要な部分となっています。
ただし、既存の汚染分析は通常、LLM 開発者によって内部で実施され、多くの場合、透明性と完全性に欠けます。
このペーパーでは、Llama シリーズ モデルのオープンソース データ汚染レポートを紹介します。
私たちは 6 つの一般的な多肢選択 QA ベンチマークを分析し、Llama のトレーニング セットとの重複を定量化します。
1\% から 8.7\% までのさまざまなレベルの汚染がベンチマーク全体で見られます。
また、比較により、Llama モデルは汚染されたサブセットとクリーンなサブセットで 5\% 以上高い精度を得ることができることも明らかになりました。
データとコードは https://github.com/liyucheng09/Contamination_Detector で入手できます。
要約(オリジナル)
Data contamination in language model evaluation is increasingly prevalent as the popularity of large language models. It allows models to ‘cheat’ via memorisation instead of displaying true capabilities. Therefore, contamination analysis has became an crucial part of reliable model evaluation to validate results. However, existing contamination analysis is usually conducted internally by LLM developers and often lacks transparency and completeness. This paper present an open source data contamination reports for the Llama series models. We analyse six popular multi-choice QA benchmarks and quantify their overlapping with the training set of Llama. Various levels of contamination ranging from 1\% to 8.7\% are found across benchmarks. Our comparison also reveals that Llama models can gain over 5\% higher accuracy on contaminated subsets versus clean subsets. Data and code are available at: https://github.com/liyucheng09/Contamination_Detector.
arxiv情報
著者 | Yucheng Li |
発行日 | 2023-10-26 17:11:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google