Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

要約

さまざまなソースを使用したコーパスでの事前トレーニングを通じて、大規模言語モデル (LLM) は素晴らしいパフォーマンスを獲得しました。
ただし、事前トレーニング コーパスの各コンポーネントの影響は不透明なままです。
その結果、トレーニング前コーパスの構成は依然として経験に基づいており、最適なものから逸脱する可能性があります。
この問題に対処するために、LLM の事前トレーニング データの 5 つの主要カテゴリからの 48 個のデータセットの影響を体系的に分析し、モデル機能の 9 つの主要カテゴリに関するベンチマークを使用して、LLM に対するそれらの影響を測定します。
私たちの分析は、相補的、直交的、相関関係を含む、LLM のパフォーマンスに対する複数のコーパスの寄与と、それらの共同影響パターンに関する経験的結果を提供します。
また、一連のモデル機能に大きく関連する書籍などの「影響力の高いデータ」のセットも特定します。
これらの調査結果は、LLM のより効率的な事前トレーニングをサポートするデータの構成に関する洞察を提供します。

要約(オリジナル)

Through pretraining on a corpus with various sources, Large Language Models (LLMs) have gained impressive performance. However, the impact of each component of the pretraining corpus remains opaque. As a result, the organization of the pretraining corpus is still empirical and may deviate from the optimal. To address this issue, we systematically analyze the impact of 48 datasets from 5 major categories of pretraining data of LLMs and measure their impacts on LLMs using benchmarks about nine major categories of model capabilities. Our analyses provide empirical results about the contribution of multiple corpora on the performances of LLMs, along with their joint impact patterns, including complementary, orthogonal, and correlational relationships. We also identify a set of “high-impact data” such as Books that is significantly related to a set of model capabilities. These findings provide insights into the organization of data to support more efficient pretraining of LLMs.

arxiv情報

著者 Yang Zhao,Li Du,Xiao Ding,Kai Xiong,Zhouhao Sun,Jun Shi,Ting Liu,Bing Qin
発行日 2024-08-28 10:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク