要約
いくつかの企業は、AI によって生成されたコンテンツを識別するために透かしベースの検出を導入しています。
しかし、アトリビューション、つまり AI 生成コンテンツの特定の部分を作成した生成 AI (GenAI) サービスのユーザーを追跡する機能は、その重要性が高まっているにもかかわらず、ほとんど研究されていないままです。
この研究では、AI が生成したコンテンツの透かしベースのユーザーレベルの帰属に関する初の体系的な研究を実施することで、このギャップを埋めることを目指しています。
私たちの重要なアイデアは、GenAI サービスの各ユーザーに固有のウォーターマークを割り当て、そのユーザーが作成した AI 生成コンテンツにこのウォーターマークを埋め込むことです。
次に、特定のコンテンツから抽出された透かしと最もよく一致する透かしを持つユーザーを識別することによって、帰属が実行されます。
ただし、このアプローチは重要な課題に直面しています。アトリビューションのパフォーマンスを最大化するには、ユーザーのウォーターマークをどのように選択する必要があるかということです。
この課題に対処するために、私たちはまず、特定のユーザー ウォーターマークのセットに対する厳密な確率分析を通じて、検出と属性のパフォーマンスの下限を理論的に導き出します。
次に、これらの下限を最大化するようにユーザーのウォーターマークを選択し、それによって検出と属性のパフォーマンスを最適化します。
私たちの理論的および経験的結果は、透かしベースのアトリビューションが、基礎となる透かしの精度と(非)堅牢性の両方の特性を継承することを示しています。
具体的には、透かし入りの AI 生成コンテンツが後処理されていないか、JPEG 圧縮などの一般的な後処理や、限られたクエリ バジェットでブラック ボックスの敵対的な後処理が行われている場合でも、アトリビューションの精度は高く保たれます。
要約(オリジナル)
Several companies have deployed watermark-based detection to identify AI-generated content. However, attribution–the ability to trace back to the user of a generative AI (GenAI) service who created a given piece of AI-generated content–remains largely unexplored despite its growing importance. In this work, we aim to bridge this gap by conducting the first systematic study on watermark-based, user-level attribution of AI-generated content. Our key idea is to assign a unique watermark to each user of the GenAI service and embed this watermark into the AI-generated content created by that user. Attribution is then performed by identifying the user whose watermark best matches the one extracted from the given content. This approach, however, faces a key challenge: How should watermarks be selected for users to maximize attribution performance? To address the challenge, we first theoretically derive lower bounds on detection and attribution performance through rigorous probabilistic analysis for any given set of user watermarks. Then, we select watermarks for users to maximize these lower bounds, thereby optimizing detection and attribution performance. Our theoretical and empirical results show that watermark-based attribution inherits both the accuracy and (non-)robustness properties of the underlying watermark. Specifically, attribution remains highly accurate when the watermarked AI-generated content is either not post-processed or subjected to common post-processing such as JPEG compression, as well as black-box adversarial post-processing with limited query budgets.
arxiv情報
著者 | Zhengyuan Jiang,Moyang Guo,Yuepeng Hu,Neil Zhenqiang Gong |
発行日 | 2024-11-18 18:35:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google