A Taxonomy for Data Contamination in Large Language Models

要約

広範な Web コーパスで事前トレーニングされた大規模な言語モデルは、幅広い下流タスクにわたって優れたパフォーマンスを発揮します。
ただし、懸念が高まっているのはデータ汚染です。評価データセットが事前トレーニング コーパスに含まれており、モデルのパフォーマンスが増大する可能性があります。
このようなデータを検出して削除するプロセスである除染は、潜在的な解決策です。
しかし、これらの汚染物質は、テストセットの変更されたバージョンに由来する可能性があり、除染中の検出を回避します。
さまざまな種類の汚染が下流タスクの言語モデルのパフォーマンスにどのような影響を与えるかは完全には理解されていません。
我々は、事前トレーニング段階で LLM が遭遇するさまざまなタイプの汚染を分類し、どのタイプが最も高いリスクをもたらすかを特定する分類法を提示します。
私たちは、要約と質問応答という 2 つの主要な NLP タスクに対する汚染の影響を分析し、さまざまな種類の汚染が評価中のタスクのパフォーマンスにどのような影響を与えるかを明らかにします。

要約(オリジナル)

Large language models pretrained on extensive web corpora demonstrate remarkable performance across a wide range of downstream tasks. However, a growing concern is data contamination, where evaluation datasets may be contained in the pretraining corpus, inflating model performance. Decontamination, the process of detecting and removing such data, is a potential solution; yet these contaminants may originate from altered versions of the test set, evading detection during decontamination. How different types of contamination impact the performance of language models on downstream tasks is not fully understood. We present a taxonomy that categorizes the various types of contamination encountered by LLMs during the pretraining phase and identify which types pose the highest risk. We analyze the impact of contamination on two key NLP tasks — summarization and question answering — revealing how different types of contamination influence task performance during evaluation.

arxiv情報

著者 Medha Palavalli,Amanda Bertsch,Matthew R. Gormley
発行日 2024-07-11 17:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク