Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

要約

大規模な言語モデルは、主に多様なソースのデータの利用に起因して、優れた一般化機能を示します。
しかし、この多様なデータを統合する従来の手法は、ヒューリスティックなスキームに大きく依存しており、理論的な指針が不足しています。
この研究では、データのキュレーションを合理化してトレーニング効率を高めることを目的として、データ混合に対する低コストのプロキシに基づく戦略を調査することで、これらの制限に取り組んでいます。
具体的には、$\textbf{BiMix}$ と呼ばれる統一スケーリング則を提案します。これは、データ量と混合比率の両方の二変量スケーリング動作を正確にモデル化します。
私たちは体系的な実験を実施し、$\textbf{BiMix}$ の予測力と基本原理についての経験的証拠を提供します。
特に、私たちの調査結果は、エントロピー駆動のトレーニング不要のデータ混合が、リソースを大量に消費する方法と同等、またはそれ以上のパフォーマンスを達成できることを明らかにしています。
私たちは、私たちの定量的な洞察が、費用対効果の高い言語モデリングにおけるさらなる賢明な研究開発に光を当てることができることを願っています。

要約(オリジナル)

Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed $\textbf{BiMix}$, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of $\textbf{BiMix}$. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.

arxiv情報

著者 Ce Ge,Zhijian Ma,Daoyuan Chen,Yaliang Li,Bolin Ding
発行日 2024-07-11 08:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク