Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

要約

大規模言語モデル (LLM) をさまざまなタスクにどのように適用できるかは多くの人が示していますが、データの汚染と記憶に関する重大な問題は無視されることがよくあります。
この作業では、表形式データに関するこの懸念に対処します。
具体的には、言語モデルがトレーニング中に表形式のデータセットを認識したかどうかを評価するためのさまざまな手法を導入します。
この調査により、LLM が多くの一般的な表形式データセットを逐語的に記憶していることが明らかになりました。
次に、トレーニング中に観察されたデータセットでの LLM の数ショット学習パフォーマンスと、トレーニング後にリリースされたデータセットでのパフォーマンスを比較します。
トレーニング中に表示されたデータセットでは LLM のパフォーマンスが向上していることがわかり、暗記が過学習につながることを示しています。
同時に、LLM は新しいデータセットに対して重要なパフォーマンスを示し、データ変換に対して驚くほど堅牢です。
次に、LLM のコンテキスト内統計学習能力を調査します。
LLM は統計的分類問題を解く点ではランダムよりも大幅に優れていますが、特に問題の次元が大きくなるにつれて、少数ショット学習のサンプル効率は従来の統計学習アルゴリズムに比べて遅れます。
これは、新しい現実世界のデータセットで観察された少数ショットのパフォーマンスの多くが、LLM の世界知識によるものであることを示唆しています。
全体として、私たちの結果は、LLM が事前トレーニング中に評価データセットを見たかどうかをテストすることの重要性を強調しています。
表形式データセットの記憶のための LLM をテストするための https://github.com/interpretml/LLM-Tabular-Memorization-Checker Python パッケージをリリースします。

要約(オリジナル)

While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. While LLMs are significantly better than random at solving statistical classification problems, the sample efficiency of few-shot learning lags behind traditional statistical learning algorithms, especially as the dimension of the problem increases. This suggests that much of the observed few-shot performance on novel real-world datasets is due to the LLM’s world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We release the https://github.com/interpretml/LLM-Tabular-Memorization-Checker Python package to test LLMs for memorization of tabular datasets.

arxiv情報

著者 Sebastian Bordt,Harsha Nori,Vanessa Rodrigues,Besmira Nushi,Rich Caruana
発行日 2024-08-20 14:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク