Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

要約

ファンデーションモデルのトレーニングプロセス他のクラスのディープラーニングシステムに関するものは、トレーニングセットの再構成エラーを最小化することに基づいています。
このため、それらはトレーニングサンプルの記憶とその後の複製の影響を受けやすいです。
この論文では、モデルの重みがトレーニングデータの圧縮表現を体現するトレーニングとしてのトレーニングの視点を紹介します。
著作権の観点から、この観点は、重みが繁殖、またはより可能性が高い潜在的に保護されている一連の作品の派生的作業と見なすことができることを意味します。
私たちは、実務家や研究者への影響を含む、基礎モデルによって生成された出力の著作権のこのフレーミングから生じる技術的および法的課題を調査します。
問題に対する情報中心のアプローチを採用することは、これらの新たな複雑な法的問題に取り組むための有望な経路を提示することを実証します。

要約(オリジナル)

The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model’s weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights can be considered a reproduction or, more likely, a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.

arxiv情報

著者 Giorgio Franceschelli,Claudia Cevenini,Mirco Musolesi
発行日 2025-03-12 14:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク