Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking

要約

タイトル:「Did You Train on My Dataset?Towards Public Dataset Protection with Clean-Label Backdoor Watermarking(あなたは私のデータセットで訓練しましたか?クリーンラベルのバックドアウォーターマーキングによる公共データセットの保護に向けて)」

要約:

-ディープラーニングモデルの成功において、インターネット上の豊富な訓練データは重要な要素として挙げられる。

-公共で利用可能なこれらのデータへの不正アクセスによる商業利用は、データセットライセンスに違反することが懸念されている。

-この論文では、公共データの保護のためのバックドアベースのウォーターマーキング手法を提案する。

-手法は、ウォーターマーキングサンプルをデータセットに挿入することにより、学習モデルが防御者によって設定された秘密の関数を暗示的に学習できるようにすることにより、機能する。

-この隠された機能は、ウォーターマーキングとして使用され、不法にデータセットを使用する第三者モデルを追跡するために使用できる。

-既存のバックドア挿入手法は、訓練セットに任意の不正確なデータを追加することを必要とし、性能の大幅な低下や異常検出アルゴリズムによる簡単な検出などの問題がある。

-この課題を克服するために、干渉のない微細な変化を使用して不正確なサンプルを置き換えるクリーンラベルバックドアウォーターマーキングフレームワークを紹介することで、提案されたフレームワークは、オリジナルタスクの性能に最小限の影響を与えてデータセットを効果的に保護することができることを示している。

-ウォーターマーキングサンプルは、原点に基づいて一貫性が保たれるため、検出が困難である。

-テキスト、画像、音声データセットに対する実験は、提案されたウォーターマーキングが、元のタスクパフォーマンスに最小限の影響を与えてデータセットを効果的に保護することを示している。

-また、わずか1%のウォーターマーキングサンプルを追加するだけで、追跡可能なウォーターマーキング機能を注入でき、ウォーターマーキングサンプルが視覚的検査に対してステルスかつ無害であることを示している。

要約(オリジナル)

The huge supporting training data on the Internet has been a key factor in the success of deep learning models. However, this abundance of public-available data also raises concerns about the unauthorized exploitation of datasets for commercial purposes, which is forbidden by dataset licenses. In this paper, we propose a backdoor-based watermarking approach that serves as a general framework for safeguarding public-available data. By inserting a small number of watermarking samples into the dataset, our approach enables the learning model to implicitly learn a secret function set by defenders. This hidden function can then be used as a watermark to track down third-party models that use the dataset illegally. Unfortunately, existing backdoor insertion methods often entail adding arbitrary and mislabeled data to the training set, leading to a significant drop in performance and easy detection by anomaly detection algorithms. To overcome this challenge, we introduce a clean-label backdoor watermarking framework that uses imperceptible perturbations to replace mislabeled samples. As a result, the watermarking samples remain consistent with the original labels, making them difficult to detect. Our experiments on text, image, and audio datasets demonstrate that the proposed framework effectively safeguards datasets with minimal impact on original task performance. We also show that adding just 1% of watermarking samples can inject a traceable watermarking function and that our watermarking samples are stealthy and look benign upon visual inspection.

arxiv情報

著者 Ruixiang Tang,Qizhang Feng,Ninghao Liu,Fan Yang,Xia Hu
発行日 2023-04-10 06:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM パーマリンク