Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

要約

事前トレーニング可能な大規模言語モデル (LLM) の現在の傾向は、主にモデルとデータセットのサイズのスケーリングに焦点を当てています。
ただし、事前トレーニング データの品質は、強力な LLM をトレーニングするための重要な要素ですが、完全に特徴付けられていない曖昧な概念です。
したがって、規模だけを超えて、データ品質の形式的な側面を基礎づけて理解するために、最近提案された Task2Vec ダイバーシティ係数を使用します。
具体的には、公的に利用可能な事前トレーニング データセットの多様性係数を測定し、理論的な下限および上限と比較して形式的多様性が高いことを実証します。
さらに、多様性係数の信頼性を高めるために、解釈可能性実験を実施し、その係数が多様性の直観的特性と一致すること、たとえば、潜在概念の数が増加するにつれて係数が増加することを発見しました。
私たちは、多様性係数は信頼できると結論付け、公開されている LLM データセットとしては高いことを示し、LLM にとって有用な多様なデータセットを構築するためにこの係数を使用できると推測しています。

要約(オリジナル)

Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it’s high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.

arxiv情報

著者 Alycia Lee,Brando Miranda,Sudharsan Sundar,Sanmi Koyejo
発行日 2023-09-26 23:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク