Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective

要約

微調整が大規模モデルのトレーニング プロセスの構成要素であることを考慮すると、大規模モデル ドメインの急速な発展に伴い、微調整に関連する研究も同時に大幅な進歩を遂げています。
データ エンジニアリングは、データ インフラストラクチャ、データ処理などを含むモデルのトレーニング プロセスにおいて基本的な役割を果たします。微調整中のデータも同様に、大規模モデルのベースを形成します。
微調整データセットのパワーを活用し、新たな可能性を探るため、このホワイトペーパーでは、データ構築の観点から現在の公開微調整データセットをレビューします。
このレビューでは、開発の軌跡を描くことを目的として、進化と分類学の 2 つの側面から公開微調整データセットの概要を提供します。
特にデータ生成やデータ拡張など、大規模言語モデル (LLM) の公開微調整データセットの構築技術と方法が詳しく説明されています。
この詳細は、特にデモンストレーション、比較、ジェネラリストのカテゴリーにわたって、前述の分類に従っています。
さらに、研究者が構築の側面からデータセットの微調整をより深く理解できるよう、データ生成手法のカテゴリ ツリーがこのレビューで抽象化されています。
私たちのレビューでは、包括的な概要を提供し、将来の研究に情報を提供することを目的として、この分野の現在の実践のさまざまなデータ準備フェーズにおける構築の特徴も要約しています。
さまざまなデータ モダリティを含むデータセットの微調整の実践についても、このレビューで構築の観点から説明します。
記事の終わりに向けて、微調整データセットの将来の構築と開発に関する洞察と考慮事項を提供します。

要約(オリジナル)

With the rapid development of the large model domain, research related to fine-tuning has concurrently seen significant advancement, given that fine-tuning is a constituent part of the training process for large-scale models. Data engineering plays a fundamental role in the training process of models, which includes data infrastructure, data processing, etc. Data during fine-tuning likewise forms the base for large models. In order to embrace the power and explore new possibilities of fine-tuning datasets, this paper reviews current public fine-tuning datasets from the perspective of data construction. An overview of public fine-tuning datasets from two sides: evolution and taxonomy, is provided in this review, aiming to chart the development trajectory. Construction techniques and methods for public fine-tuning datasets of Large Language Models (LLMs), including data generation and data augmentation among others, are detailed. This elaboration follows the aforementioned taxonomy, specifically across demonstration, comparison, and generalist categories. Additionally, a category tree of data generation techniques has been abstracted in our review to assist researchers in gaining a deeper understanding of fine-tuning datasets from the construction dimension. Our review also summarizes the construction features in different data preparation phases of current practices in this field, aiming to provide a comprehensive overview and inform future research. Fine-tuning dataset practices, encompassing various data modalities, are also discussed from a construction perspective in our review. Towards the end of the article, we offer insights and considerations regarding the future construction and developments of fine-tuning datasets.

arxiv情報

著者 Runyuan Ma,Wei Li,Fukai Shang
発行日 2024-07-11 13:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク