Benchmarking Benchmark Leakage in Large Language Models

要約

事前トレーニング データの使用が拡大する中、ベンチマーク データセットの漏洩現象がますます顕著になり、不透明なトレーニング プロセスや、現代の大規模言語モデル (LLM) に教師付きデータがしばしば非公開で含まれていることによって悪化しています。
この問題はベンチマークの有効性を歪め、潜在的に不公平な比較を助長し、この分野の健全な発展を妨げます。
これに対処するために、潜在的なデータ漏洩を特定するために、ベンチマークでのモデルの予測精度を測定する 2 つのシンプルでスケーラブルなメトリクスである Perplexity と N-gram 精度を利用した検出パイプラインを導入します。
数学的推論のコンテキストに基づいて 31 の LLM を分析することにより、テスト セットの誤用さえもトレーニングの実質的な例が明らかになり、不公平な比較が生じる可能性があります。
これらの発見により、モデルの文書化、ベンチマークの設定、将来の評価に関していくつかの推奨事項を提供するようになりました。
特に、ベンチマークの利用状況を明確に文書化し、LLM の透明性と健全な発展を促進するために、「ベンチマーク透明性カード」を提案しています。
リーダーボード、パイプラインの実装、モデルの予測を公開し、将来の研究を促進します。

要約(オリジナル)

Amid the expanding use of pre-training data, the phenomenon of benchmark dataset leakage has become increasingly prominent, exacerbated by opaque training processes and the often undisclosed inclusion of supervised data in contemporary Large Language Models (LLMs). This issue skews benchmark effectiveness and fosters potentially unfair comparisons, impeding the field’s healthy development. To address this, we introduce a detection pipeline utilizing Perplexity and N-gram accuracy, two simple and scalable metrics that gauge a model’s prediction precision on benchmark, to identify potential data leakages. By analyzing 31 LLMs under the context of mathematical reasoning, we reveal substantial instances of training even test set misuse, resulting in potentially unfair comparisons. These findings prompt us to offer several recommendations regarding model documentation, benchmark setup, and future evaluations. Notably, we propose the ‘Benchmark Transparency Card’ to encourage clear documentation of benchmark utilization, promoting transparency and healthy developments of LLMs. we have made our leaderboard, pipeline implementation, and model predictions publicly available, fostering future research.

arxiv情報

著者 Ruijie Xu,Zengzhi Wang,Run-Ze Fan,Pengfei Liu
発行日 2024-04-29 16:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク