要約
生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの複数のドメインにわたるコンテンツを作成するために使用されることが増えています。
これらのモデルは大きな技術的進歩を表していますが、多くの場合著作権で保護された素材を含む、人間が生成した膨大な量のコンテンツでトレーニングすることで生成機能を獲得しています。
この研究では、オーディオ透かし技術を使用してコンテンツの不正使用を検出し、音楽生成モデルをトレーニングできるかどうかを調査します。
透かし入りのデータでトレーニングされたモデルによって生成された出力を、透かし入りのデータでトレーニングされたモデルと比較します。
私たちは、モデルの生成動作に影響を与える要素、つまり透かし技術、トレーニング セット内の透かし入りサンプルの割合、モデルのトークナイザーに対する透かし技術の堅牢性を研究します。
私たちの結果は、人間には知覚できないものを含むオーディオ透かし技術が、モデルの出力に顕著な変化を引き起こす可能性があることを示しています。
また、最先端の透かし技術の除去技術に対する堅牢性も研究します。
要約(オリジナル)
Generative Artificial Intelligence (Gen-AI) models are increasingly used to produce content across domains, including text, images, and audio. While these models represent a major technical breakthrough, they gain their generative capabilities from being trained on enormous amounts of human-generated content, which often includes copyrighted material. In this work, we investigate whether audio watermarking techniques can be used to detect an unauthorized usage of content to train a music generation model. We compare outputs generated by a model trained on watermarked data to a model trained on non-watermarked data. We study factors that impact the model’s generation behaviour: the watermarking technique, the proportion of watermarked samples in the training set, and the robustness of the watermarking technique against the model’s tokenizer. Our results show that audio watermarking techniques, including some that are imperceptible to humans, can lead to noticeable shifts in the model’s outputs. We also study the robustness of a state-of-the-art watermarking technique to removal techniques.
arxiv情報
著者 | Pascal Epple,Igor Shilov,Bozhidar Stevanoski,Yves-Alexandre de Montjoye |
発行日 | 2024-12-12 10:49:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google