Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

要約

他のクラスの深層学習システムと同様に、基礎モデルのトレーニング プロセスは、トレーニング セットにわたる再構成エラーを最小限に抑えることに基づいています。
このため、トレーニング サンプルの暗記とその後の再現の影響を受けやすくなります。
この論文では、モデルの重みがトレーニング データの圧縮表現を具体化する、圧縮としてのトレーニングの観点を導入します。
著作権の観点から見ると、この観点は、ウェイトが潜在的に保護されている一連の作品の複製または派生作品とみなされる可能性があることを意味します。
私たちは、基礎モデルによって生成された出力の著作権のこの枠組みから生じる技術的および法的課題を、実務者や研究者への影響も含めて調査します。
私たちは、この問題に対して情報中心のアプローチを採用することが、これらの新たな複雑な法的問題に取り組むための有望な道筋となることを実証します。

要約(オリジナル)

The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model’s weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.

arxiv情報

著者 Giorgio Franceschelli,Claudia Cevenini,Mirco Musolesi
発行日 2024-09-18 13:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク