Data Management For Large Language Models: A Survey

要約

データは、大規模言語モデル (LLM) のトレーニングにおいて基本的な役割を果たします。
特に適切なトレーニング データセットの定式化における効果的なデータ管理は、モデルのパフォーマンスを向上させ、事前トレーニングおよび監視付き微調整フェーズでのトレーニング効率を向上させるために重要です。
データ管理の重要性は非常に高いにもかかわらず、現在の研究コミュニティは、管理戦略の選択の背後にある理論的根拠、その結果としての効果、厳選されたデータセットを評価する方法論、および改善された戦略の継続的な追求について体系的な分析を提供するという点ではまだ不十分です。
その結果、データ管理の探求は研究コミュニティの間でますます注目を集めています。
この調査は、LLM の事前トレーニング段階と教師付き微調整段階の両方におけるデータ管理における現在の研究の包括的な概要を提供し、データ管理戦略設計のさまざまな注目すべき側面 (データ量、データ品質、ドメイン/タスク構成など) をカバーしています。
将来的には、既存の課題を推測し、この分野の発展に向けた有望な方向性を概説します。
したがって、この調査は、効果的なデータ管理実践を通じて強力な LLM の構築を目指す実務者にとっての指針となるリソースとして機能します。
最新の論文のコレクションは、https://github.com/ZigeW/data_management_LLM で入手できます。

要約(オリジナル)

Data plays a fundamental role in the training of Large Language Models (LLMs). Effective data management, particularly in the formulation of a well-suited training dataset, holds significance for enhancing model performance and improving training efficiency during pretraining and supervised fine-tuning phases. Despite the considerable importance of data management, the current research community still falls short in providing a systematic analysis of the rationale behind management strategy selection, its consequential effects, methodologies for evaluating curated datasets, and the ongoing pursuit of improved strategies. Consequently, the exploration of data management has attracted more and more attention among the research community. This survey provides a comprehensive overview of current research in data management within both the pretraining and supervised fine-tuning stages of LLMs, covering various noteworthy aspects of data management strategy design: data quantity, data quality, domain/task composition, etc. Looking toward the future, we extrapolate existing challenges and outline promising directions for development in this field. Therefore, this survey serves as a guiding resource for practitioners aspiring to construct powerful LLMs through effective data management practices. The collection of the latest papers is available at https://github.com/ZigeW/data_management_LLM.

arxiv情報

著者 Zige Wang,Wanjun Zhong,Yufei Wang,Qi Zhu,Fei Mi,Baojun Wang,Lifeng Shang,Xin Jiang,Qun Liu
発行日 2023-12-26 01:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク