VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation

要約

大規模な言語モデルが従来のベンチマークで優れたスコアを達成するにつれて、一般にデータ汚染問題として知られる、事前トレーニング中のベンチマーク データ漏洩を懸念する研究者が増えています。
公正な評価を確保するために、最近のベンチマークはトレーニング セットと検証セットのみをリリースし、テスト セットのラベルはクローズドソースのままにしています。
言語モデルを評価したい人は誰でも、集中処理のためにモデルの予測を送信し、そのモデルの結果をリーダーボードに公開する必要があります。
ただし、この送信プロセスは非効率的であり、効果的なエラー分析を妨げます。
この問題に対処するために、ベンチマークを可変化し、言語モデルを動的に評価することを提案します。
具体的には、各テスト ケースから変数を抽出し、各変数の値の範囲を定義します。
評価ごとに、これらの値範囲から新しい値をサンプリングして固有のテスト ケースを作成し、毎回新しい評価を保証します。
この可変摂動手法を 4 つのデータセット (GSM8K、ARC、CommonsenseQA、TruthfulQA) に適用しました。これらは数学的生成と複数選択タスクをカバーします。
私たちの実験結果は、このアプローチが言語モデルの真の機能をより正確に評価し、汚染の問題を効果的に軽減することを示しています。

要約(オリジナル)

As large language models achieve impressive scores on traditional benchmarks, an increasing number of researchers are becoming concerned about benchmark data leakage during pre-training, commonly known as the data contamination problem. To ensure fair evaluation, recent benchmarks release only the training and validation sets, keeping the test set labels closed-source. They require anyone wishing to evaluate his language model to submit the model’s predictions for centralized processing and then publish the model’s result on their leaderboard. However, this submission process is inefficient and prevents effective error analysis. To address this issue, we propose to variabilize benchmarks and evaluate language models dynamically. Specifically, we extract variables from each test case and define a value range for each variable. For each evaluation, we sample new values from these value ranges to create unique test cases, thus ensuring a fresh evaluation each time. We applied this variable perturbation method to four datasets: GSM8K, ARC, CommonsenseQA, and TruthfulQA, which cover mathematical generation and multiple-choice tasks. Our experimental results demonstrate that this approach provides a more accurate assessment of the true capabilities of language models, effectively mitigating the contamination problem.

arxiv情報

著者 Kun Qian,Shunji Wan,Claudia Tang,Youzhi Wang,Xuanming Zhang,Maximillian Chen,Zhou Yu
発行日 2024-06-26 15:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク