A Survey on Data Selection for Language Models

要約

近年の大規模言語モデルの成功の主な要因は、教師なし事前学習に膨大かつ増え続けるテキストデータセットを使用することである。しかし、利用可能なテキストデータの質は様々であるため、利用可能なすべてのデータに対して素朴にモデルをトレーニングすることは最適ではない(あるいは実行可能ではない)場合がある。また、データをフィルタリングすることで、必要なトレーニングの量を減らし、モデルのトレーニングにかかる二酸化炭素排出量と経済的コストを削減することができる。データ選択法は、どの候補データポイントを学習データセットに含めるか、また選択されたデータポイントからどのように適切にサンプリングするかを決定することを目的としている。データ選択手法の改善が期待されるため、この分野の研究量は急速に拡大している。しかし、深層学習はほとんどが経験則に基づくものであり、大規模データでの実験にはコストがかかるため、大規模なデータ選択研究のためのリソースを持つ組織はほとんどない。その結果、効果的なデータ選択の実践に関する知識は少数の組織に集中しており、その多くは研究結果や方法論をオープンに共有していない。この知識のギャップを縮めるために、データ選択方法と関連する研究分野に関する既存の文献を包括的にレビューし、既存のアプローチの分類法を提供する。現在の研究状況を説明することで、新規および既存の研究者のための入口を確立し、データ選択における進歩を加速させることを目的としている。加えて、このレビューを通して、文献に顕著な穴があることに注意を喚起し、将来の研究のための有望な道を提案することで、本稿を締めくくる。

要約(オリジナル)

A major factor in the recent success of large language models is the use of enormous and ever-growing text datasets for unsupervised pre-training. However, naively training a model on all available data may not be optimal (or feasible), as the quality of available text data can vary. Filtering out data can also decrease the carbon footprint and financial costs of training models by reducing the amount of training required. Data selection methods aim to determine which candidate data points to include in the training dataset and how to appropriately sample from the selected data points. The promise of improved data selection methods has caused the volume of research in the area to rapidly expand. However, because deep learning is mostly driven by empirical evidence and experimentation on large-scale data is expensive, few organizations have the resources for extensive data selection research. Consequently, knowledge of effective data selection practices has become concentrated within a few organizations, many of which do not openly share their findings and methodologies. To narrow this gap in knowledge, we present a comprehensive review of existing literature on data selection methods and related research areas, providing a taxonomy of existing approaches. By describing the current landscape of research, this work aims to accelerate progress in data selection by establishing an entry point for new and established researchers. Additionally, throughout this review we draw attention to noticeable holes in the literature and conclude the paper by proposing promising avenues for future research.

arxiv情報

著者 Alon Albalak,Yanai Elazar,Sang Michael Xie,Shayne Longpre,Nathan Lambert,Xinyi Wang,Niklas Muennighoff,Bairu Hou,Liangming Pan,Haewon Jeong,Colin Raffel,Shiyu Chang,Tatsunori Hashimoto,William Yang Wang
発行日 2024-08-02 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク