要約
データの出所を特定することは、データ所有権の保護、メディアフォレンジック、AI 生成コンテンツの検出などのアプリケーションを使用して、データの出所を確認するために重要です。
標準的なアプローチには、クエリ データを参照データセット内のエントリと照合する埋め込みベースの検索手法が含まれます。
ただし、この方法は、良性の編集および悪意のある編集に対して堅牢ではありません。
これに対処するために、誤り訂正コードと透かしを使用したデータ取得 (DREW) を提案します。
DREW は参照データセットをランダムにクラスタリングし、エラー制御された一意のウォーターマーク キーを各クラスタに挿入し、クエリ時にこれらのキーを使用して特定のサンプルに適切なクラスタを識別します。
関連するクラスターを見つけた後、クラスター内で埋め込みベクトルの類似性検索が実行され、最も正確な一致が見つかります。
エラー制御コード (ECC) の統合により、信頼性の高いクラスター割り当てが保証され、ECC アルゴリズムが高い信頼性で正しいクラスターを検出できない場合でも、このメソッドでデータセット全体の取得を実行できるようになります。
これにより、DREW はベースラインのパフォーマンスを維持すると同時に、データセットのより小さなサブセットで取得を実行するときにクエリが元のクエリと正しく一致する可能性が高まるため、パフォーマンスを向上させる機会も得られます。
使用する透かし技術に応じて、DREW は複数のデータセットと最先端の埋め込みモデル (DinoV2、CLIP など) にわたって、取得精度の大幅な向上 (一部のデータセットと変更タイプでは最大 40%) を実現できます。
私たちの方法は、安全で信頼性の高いソース識別のための有望なソリューションです。
コードは https://github.com/mehrdadsaberi/DREW で入手できます。
要約(オリジナル)
Identifying the origin of data is crucial for data provenance, with applications including data ownership protection, media forensics, and detecting AI-generated content. A standard approach involves embedding-based retrieval techniques that match query data with entries in a reference dataset. However, this method is not robust against benign and malicious edits. To address this, we propose Data Retrieval with Error-corrected codes and Watermarking (DREW). DREW randomly clusters the reference dataset, injects unique error-controlled watermark keys into each cluster, and uses these keys at query time to identify the appropriate cluster for a given sample. After locating the relevant cluster, embedding vector similarity retrieval is performed within the cluster to find the most accurate matches. The integration of error control codes (ECC) ensures reliable cluster assignments, enabling the method to perform retrieval on the entire dataset in case the ECC algorithm cannot detect the correct cluster with high confidence. This makes DREW maintain baseline performance, while also providing opportunities for performance improvements due to the increased likelihood of correctly matching queries to their origin when performing retrieval on a smaller subset of the dataset. Depending on the watermark technique used, DREW can provide substantial improvements in retrieval accuracy (up to 40\% for some datasets and modification types) across multiple datasets and state-of-the-art embedding models (e.g., DinoV2, CLIP), making our method a promising solution for secure and reliable source identification. The code is available at https://github.com/mehrdadsaberi/DREW
arxiv情報
著者 | Mehrdad Saberi,Vinu Sankar Sadasivan,Arman Zarei,Hessam Mahdavifar,Soheil Feizi |
発行日 | 2024-06-20 15:25:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google