要約
著作権で保護されたデータ、または制限されたデータに対して言語モデル (LM) をトレーニングすることの合法性については、激しい議論が行われています。
ただし、ここで示したように、リスクの低いテキスト (著作権切れの書籍や政府文書など) のみでトレーニングした場合、モデルのサイズと対象範囲が限られているため、モデルのパフォーマンスが大幅に低下します。
推論中にこのリスクとパフォーマンスのトレードオフを管理する新しい言語モデルである SILO を紹介します。
SILO は、(1) オープン ライセンス コーパス (OLC) でパラメトリック LM をトレーニングすることによって構築されます。OLC は、パブリック ドメインの 2280 億トークンと許可されたテキストで厳選された新しいコーパスであり、(2) より一般的で簡単に変更可能なノンパラメトリック データストアでそれを拡張します (
例: 著作権で保護された書籍やニュースを含む) は、推論中にのみクエリされます。
データストアを使用すると、リスクの高いデータをトレーニングせずに使用でき、文レベルのデータ帰属をサポートし、データ作成者がストアからコンテンツを削除することでモデルからオプトアウトできるようになります。
これらの機能により、米国のフェアユース原則や欧州連合の GDPR などのデータ使用規制への準拠を促進できます。
私たちの実験では、OLC がカバーしていないドメインではパラメトリック LM が苦戦することがわかりました。
ただし、データストアへのアクセスによりドメイン外のパフォーマンスが大幅に向上し、ほとんどが高リスクのテキストを含むより多様なコーパスである Pile でトレーニングされた LM とのパフォーマンス ギャップの 90% が埋められます。
また、どのノンパラメトリックアプローチが最も効果的か、残りのエラーがどこにあるのか、データストアのサイズに応じてパフォーマンスがどのように変化するのかも分析します。
私たちの結果は、法的リスクを軽減しながら高品質の言語モデルを構築できることを示唆しています。
要約(オリジナル)
The legality of training language models (LMs) on copyrighted or otherwise restricted data is under intense debate. However, as we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage. We present SILO, a new language model that manages this risk-performance tradeoff during inference. SILO is built by (1) training a parametric LM on Open License Corpus (OLC), a new corpus we curate with 228B tokens of public domain and permissively licensed text and (2) augmenting it with a more general and easily modifiable nonparametric datastore (e.g., containing copyrighted books or news) that is only queried during inference. The datastore allows use of high-risk data without training on it, supports sentence-level data attribution, and enables data producers to opt out from the model by removing content from the store. These capabilities can foster compliance with data-use regulations such as the fair use doctrine in the United States and the GDPR in the European Union. Our experiments show that the parametric LM struggles on domains not covered by OLC. However, access to the datastore greatly improves out of domain performance, closing 90% of the performance gap with an LM trained on the Pile, a more diverse corpus with mostly high-risk text. We also analyze which nonparametric approach works best, where the remaining errors lie, and how performance scales with datastore size. Our results suggest that it is possible to build high quality language models while mitigating their legal risk.
arxiv情報
著者 | Sewon Min,Suchin Gururangan,Eric Wallace,Weijia Shi,Hannaneh Hajishirzi,Noah A. Smith,Luke Zettlemoyer |
発行日 | 2024-07-31 02:15:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google