要約
超大規模な自動クロールコーパスで事前トレーニングされた言語モデルの出現により、評価におけるデータ汚染がますます蔓延しています。
この問題は、モデルの機能と一般化を正確に評価する際に重大な課題につながります。
この論文では、最新のテキストを活用して汚染のない読解評価を作成する自動手法である、latestEval を提案します。
latestEval は、最近の時間枠内に公開されたテキストのみを使用することでデータの汚染を回避し、事前トレーニングされた言語モデルのトレーニング コーパスとの重複がないようにします。
私たちは、1) 最新のテキストを収集するために、latestEval 自動パイプラインを開発します。
2) 重要な情報を特定し、3) 既存の回答を文脈から削除しながら、その情報を対象とした質問を作成します。
これにより、モデルは単にコピーアンドペーストするのではなく、残りのコンテキストに基づいて答えを自ら推測することが促進されます。
私たちの実験では、言語モデルが以前のベンチマークとは対照的に、latestEval ではごくわずかな記憶動作を示すことが実証されており、データ汚染のリスクが大幅に減少し、より堅牢な評価につながることが示唆されています。
データとコードは、https://github.com/liyucheng09/latestEval で公開されています。
要約(オリジナル)
Data contamination in evaluation is getting increasingly prevalent with the emerge of language models pre-trained on super large, automatically-crawled corpora. This problem leads to significant challenges in accurate assessment of model capabilities and generalisations. In this paper, we propose LatestEval, an automatic method leverages the most recent texts to create uncontaminated reading comprehension evaluations. LatestEval avoids data contamination by only using texts published within a recent time window, ensuring no overlap with the training corpora of pre-trained language models. We develop LatestEval automated pipeline to 1) gather latest texts; 2) identify key information, and 3) construct questions targeting the information while removing the existing answers from the context. This encourages models to infer the answers themselves based on the remaining context, rather than just copy-paste. Our experiments demonstrate that language models exhibit negligible memorisation behaviours on LatestEval as opposed to previous benchmarks, suggesting a significantly reduced risk of data contamination and leading to a more robust evaluation. Data and code are publicly available at: https://github.com/liyucheng09/LatestEval.
arxiv情報
著者 | Yucheng Li,Frank Geurin,Chenghua Lin |
発行日 | 2023-12-19 17:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google