要約
著作権侵害は、生成モデルがトレーニング段階でアクセスした著作権で保護されたデータと実質的に同様のサンプルを生成するときに発生する可能性があります。
アクセスの概念は通常、著作権で保護されたサンプルをトレーニング データセットに直接含めることを指し、これを検査して侵害を特定することができます。
私たちは、このような視覚的な監査は、著作権で保護されたサンプルとは大幅に異なるように見えるが、潜在拡散モデルをトレーニングした効果を誘導する偽装を構築する隠蔽された著作権侵害を主に見落としていると主張します。
このような偽装は、著作権で保護された素材への間接的なアクセスのみを必要とし、視覚的に区別できないため、現在の監査ツールを簡単に回避できます。
このペーパーでは、偽装生成アルゴリズム、偽装の暴露、そして重要なことに、既存のツールボックスを強化するために偽装を検出する方法を明らかにすることで、このような偽装された著作権侵害についての理解を深めることができます。
さらに、このような間接アクセスを理解するために、確認応答というより広い概念を導入します。
要約(オリジナル)
Copyright infringement may occur when a generative model produces samples substantially similar to some copyrighted data that it had access to during the training phase. The notion of access usually refers to including copyrighted samples directly in the training dataset, which one may inspect to identify an infringement. We argue that such visual auditing largely overlooks a concealed copyright infringement, where one constructs a disguise that looks drastically different from the copyrighted sample yet still induces the effect of training Latent Diffusion Models on it. Such disguises only require indirect access to the copyrighted material and cannot be visually distinguished, thus easily circumventing the current auditing tools. In this paper, we provide a better understanding of such disguised copyright infringement by uncovering the disguises generation algorithm, the revelation of the disguises, and importantly, how to detect them to augment the existing toolbox. Additionally, we introduce a broader notion of acknowledgment for comprehending such indirect access.
arxiv情報
著者 | Yiwei Lu,Matthew Y. R. Yang,Zuoqiu Liu,Gautam Kamath,Yaoliang Yu |
発行日 | 2024-04-11 17:54:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google