要約
言語モデリングにおける最近の進歩の多くは、同じモデル アーキテクチャをより大きなデータセットに効果的に拡張することによって生じています。
これに関連して、最近の研究では、トレーニング データセットのサイズと品質の増加によるパフォーマンスの向上が強調されており、大規模なデータセットの新しいソースの必要性が示唆されています。
この作業では、企業の開示情報から抽出された 1,590 億個を超えるトークンで構成されるパブリック データセットである BeanCounter を紹介します。
このデータが実際に新規であることを示します。一般的なクロールベースのデータセットに出現する BeanCounter は 0.1% 未満であり、同様のソースに依存するデータセットよりも桁違いに大きいです。
データの出所を考慮すると、BeanCounter は Web ベースのデータセットよりも比較的事実に近く、有害性が低いという仮説を立てます。
この仮説を調査すると、BeanCounter では多くの人口統計的アイデンティティが同様の蔓延で発生しますが、他のデータセットと比べて有害なコンテキストが大幅に少ないことがわかります。
BeanCounter の有用性を実証するために、BeanCounter で継続的に事前トレーニングされた 2 つの LLM をその基本モデルと評価および比較します。
継続的に事前トレーニングされたモデルでは、財務ドメイン内で有害な生成が 18 ~ 33% 削減され、パフォーマンスが向上していることがわかりました。
総合すると、私たちの研究は、BeanCounter が、数十億のパラメーター LLM をトレーニングするのに十分な規模を備えた、低毒性で高品質のドメイン固有データの新しいソースであることを示唆しています。
要約(オリジナル)
Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses’ disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data’s provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs.
arxiv情報
著者 | Siyan Wang,Bradford Levy |
発行日 | 2024-09-26 13:26:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google