Data Management For Large Language Models: A Survey

要約

大規模言語モデル(LLM)の学習において、データは基本的な役割を果たす。効果的なデータ管理、特に適切な学習データセットの策定は、モデルの性能を向上させ、事前学習や教師ありの微調整段階における学習効率を改善する上で重要である。データ管理の重要性にもかかわらず、現在の研究コミュニティは、管理戦略選択の根拠、その結果生じる効果、キュレーションされたデータセットを評価するための方法論、および改善された戦略の継続的な追求に関する体系的な分析を提供するには至っていない。その結果、データ管理の探求は研究コミュニティの間でますます注目を集めている。本サーベイでは、LLMの事前学習段階と教師ありの微調整段階の両方におけるデータ管理に関する現在の研究の包括的な概観を提供し、データ管理戦略設計の様々な注目すべき側面(データ量、データの質、ドメイン/タスク構成など)を網羅する。将来に向けて、我々は既存の課題を推定し、この分野における開発の有望な方向性を概説する。従って、このサーベイは、効果的なデータ管理の実践を通じて強力なLLMの構築を目指す実務家にとって、指針となるリソースとなる。最新の論文集はhttps://github.com/ZigeW/data_management_LLM。

要約(オリジナル)

Data plays a fundamental role in the training of Large Language Models (LLMs). Effective data management, particularly in the formulation of a well-suited training dataset, holds significance for enhancing model performance and improving training efficiency during pretraining and supervised fine-tuning phases. Despite the considerable importance of data management, the current research community still falls short in providing a systematic analysis of the rationale behind management strategy selection, its consequential effects, methodologies for evaluating curated datasets, and the ongoing pursuit of improved strategies. Consequently, the exploration of data management has attracted more and more attention among the research community. This survey provides a comprehensive overview of current research in data management within both the pretraining and supervised fine-tuning stages of LLMs, covering various noteworthy aspects of data management strategy design: data quantity, data quality, domain/task composition, etc. Looking toward the future, we extrapolate existing challenges and outline promising directions for development in this field. Therefore, this survey serves as a guiding resource for practitioners aspiring to construct powerful LLMs through effective data management practices. The collection of the latest papers is available at https://github.com/ZigeW/data_management_LLM.

arxiv情報

著者 Zige Wang,Wanjun Zhong,Yufei Wang,Qi Zhu,Fei Mi,Baojun Wang,Lifeng Shang,Xin Jiang,Qun Liu
発行日 2023-12-04 07:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク