Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data

要約

大規模言語モデル (LLM) の事前トレーニングにおける現在の傾向は、主にモデルとデータセットのサイズのスケーリングに焦点を当てています。
事前トレーニング データの品質は、強力な LLM をトレーニングするための重要な要素と考えられていますが、厳密に特徴付けられていない曖昧な概念のままです。
この目的のために、私たちは、データ品質の重要な側面の 1 つである自然言語データの変動性の測定を、特に多様性係数と呼ばれる尺度を介して形式化することを提案します。
私たちの経験的分析は、提案された多様性係数が多様性と変動性の直感的な特性と一致していること、たとえば、潜在概念の数が増加するにつれて係数が増加することを示しています。
次に、公開されている事前トレーニング データセットの多様性係数を測定し、その形式的多様性が理論的な下限と上限に比べて高いことを実証します。
最後に、GPT-2 と LLaMAv2 を使用して包括的な一連の制御された介入実験を実行します。これにより、事前トレーニング データの多様性係数が下流モデルの評価パフォーマンスの有用な側面を特徴付けることが実証されます。さまざまなサイズの合計 44 のモデル (5100 万から 7000 万のパラメーター)。
私たちの正式な多様性の概念は、変動性を捉え、因果的に評価パフォーマンスの向上につながるデータ品質の重要な側面であると結論付けています。

要約(オリジナル)

Current trends in pre-training Large Language Models (LLMs) primarily focus on the scaling of model and dataset size. While the quality of pre-training data is considered an important factor for training powerful LLMs, it remains a nebulous concept that has not been rigorously characterized. To this end, we propose a formalization of one key aspect of data quality — measuring the variability of natural language data — specifically via a measure we call the diversity coefficient. Our empirical analysis shows that the proposed diversity coefficient aligns with the intuitive properties of diversity and variability, e.g., it increases as the number of latent concepts increases. Then, we measure the diversity coefficient of publicly available pre-training datasets and demonstrate that their formal diversity is high compared to theoretical lower and upper bounds. Finally, we conduct a comprehensive set of controlled interventional experiments with GPT-2 and LLaMAv2 that demonstrate the diversity coefficient of pre-training data characterizes useful aspects of downstream model evaluation performance — totaling 44 models of various sizes (51M to 7B parameters). We conclude that our formal notion of diversity is an important aspect of data quality that captures variability and causally leads to improved evaluation performance.

arxiv情報

著者 Brando Miranda,Alycia Lee,Sudharsan Sundar,Allison Casasola,Sanmi Koyejo
発行日 2024-08-26 17:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク