要約
オンラインコンテンツの著作権所有者によるWebクロールオプトアウトの採用の増加は、大規模な言語モデル(LLM)パフォーマンスに対するデータコンプライアンスの影響に関する重要な疑問を提起します。
ただし、これらの制限(および結果として得られるデータセットのフィルタリング)が、これらのコーパスを使用してトレーニングされたモデルの機能にどのように影響するかについてはほとんど知られていません。
この作業では、この効果を$ \ textit {データコンプライアンスギャップ} $(DCG)として概念化します。これは、Webクロールオプトアウトに準拠したデータセットでトレーニングされたモデル間のパフォーマンスの違いとそうでないものを定量化します。
2つの設定でデータコンプライアンスのギャップを測定します。ゼロからのモデルを事前に移し、既存の準拠モデルからの継続的な事前トレーニング(著作権で保護されたデータを後で事前に統合できる設定をシミュレートします)。
1.5Bモデルを使用した実験は、2025年1月の時点で、Webデータオプトアウトのコンプライアンスが一般的な知識の獲得を分解しないことを示しています(0 \%DCGに近い)。
ただし、生物医学研究などの専門的なドメインでは、主要な出版社を除くと、パフォーマンスの低下につながります。
これらの調査結果は、汎用のLLMを完全にオープンなデータを使用して同等に実行するようにトレーニングできるが、特殊なドメインのパフォーマンスは、トレーニングの後半で高品質の著作権で保護されたソースへのアクセスから恩恵を受ける可能性があることを示唆しています。
私たちの研究は、データコンプライアンスとダウンストリームモデルのパフォーマンスの間の長期にわたるトレードオフに関する経験的洞察を提供し、AIのトレーニングプラクティスと政策決定に関する将来の議論を通知します。
要約(オリジナル)
The increasing adoption of web crawling opt-outs by copyright holders of online content raises critical questions about the impact of data compliance on large language model (LLM) performance. However, little is known about how these restrictions (and the resultant filtering of pretraining datasets) affect the capabilities of models trained using these corpora. In this work, we conceptualize this effect as the $\textit{data compliance gap}$ (DCG), which quantifies the performance difference between models trained on datasets that comply with web crawling opt-outs, and those that do not. We measure the data compliance gap in two settings: pretraining models from scratch and continual pretraining from existing compliant models (simulating a setting where copyrighted data could be integrated later in pretraining). Our experiments with 1.5B models show that, as of January 2025, compliance with web data opt-outs does not degrade general knowledge acquisition (close to 0\% DCG). However, in specialized domains such as biomedical research, excluding major publishers leads to performance declines. These findings suggest that while general-purpose LLMs can be trained to perform equally well using fully open data, performance in specialized domains may benefit from access to high-quality copyrighted sources later in training. Our study provides empirical insights into the long-debated trade-off between data compliance and downstream model performance, informing future discussions on AI training practices and policy decisions.
arxiv情報
著者 | Dongyang Fan,Vinko Sabolčec,Matin Ansaripour,Ayush Kumar Tarun,Martin Jaggi,Antoine Bosselut,Imanol Schlag |
発行日 | 2025-04-08 17:08:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google