要約
現代の言語モデルは、数兆個のトークンで構成される大規模で構造化されていないデータセットでトレーニングされ、Webをrawうによって取得します。
構造化されていない性質により、コンテンツについて推論し、データキュレーションに対する体系的なアプローチを開発することが困難になります。
このホワイトペーパーでは、内容の分類を開発し、ドメインに整理することにより、モノリシックウェブコーパスを開梱します。
Weborganizerを紹介します。Weborganizerは、トピックと形式の両方の観点からWebページを整理するためのフレームワークです。
ドメインのこれら2つの補完的な概念を使用して、大規模な言語モデルからの注釈を効率的な分類器に蒸留することにより、トレーニング前のデータに自動的に注釈を付けます。
これにより、さまざまなドメインからのデータを混合してダウンストリームタスクのモデルを改善する方法を調べることができ、効果的なトピックと形式に関する洞察を組み合わせてパフォーマンスをさらに高めることができることを示します。
ドメインの混合が品質に基づいてデータを選択する既存の方法も改善することを実証します。
さらに、品質ベースの方法がドメイン混合物を暗黙的に変化させる方法を研究および比較します。
全体として、私たちの研究は、ドメインの構築とミキシングが品質ベースのデータキュレーション方法に貴重な補完を提供し、効果的で洞察に富んだプリトレーニング前のデータキュレーションのための新しい道を開くことを示しています。
要約(オリジナル)
Modern language models are trained on large, unstructured datasets consisting of trillions of tokens and obtained by crawling the web. The unstructured nature makes it difficult to reason about their contents and develop systematic approaches to data curation. In this paper, we unpack monolithic web corpora by developing taxonomies of their contents and organizing them into domains. We introduce WebOrganizer, a framework for organizing web pages in terms of both their topic and format. Using these two complementary notions of domains, we automatically annotate pre-training data by distilling annotations from a large language model into efficient classifiers. This allows us to study how data from different domains should be mixed to improve models on downstream tasks, and we show that we can combine insights about effective topics and formats to further boost performance. We demonstrate that our domain mixing also improves existing methods that select data based on quality. Furthermore, we study and compare how quality-based methods will implicitly change the domain mixture. Overall, our work demonstrates that constructing and mixing domains provides a valuable complement to quality-based data curation methods, opening new avenues for effective and insightful pre-training data curation.
arxiv情報
著者 | Alexander Wettig,Kyle Lo,Sewon Min,Hannaneh Hajishirzi,Danqi Chen,Luca Soldaini |
発行日 | 2025-02-14 18:02:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google