Data Isotopes for Data Provenance in DNNs

要約

今日、データを大量に消費するディープ ニューラル ネットワーク (DNN) の作成者は、トレーニングの材料を求めてインターネットを探し回っています。そのため、ユーザーは自分のデータがいつモデル トレーニングに割り当てられるかをほとんど制御できず、知識もありません。
ユーザーが不要なデータの使用に対抗できるようにするために、ユーザーが自分のデータが DNN モデルのトレーニングに使用されたかどうかを検出できる実用的なシステムを設計、実装、および評価します。
トレーニング中に DNN に「スプリアス機能」を導入するアイソトープと呼ばれる特別なデータ ポイントをユーザーが作成する方法を示します。
トレーニング済みモデルへのクエリ アクセスのみで、モデル トレーニング プロセスの知識やデータ ラベルの制御がなくても、統計的仮説検定を適用して、ユーザーの
データ。
これにより、暗記と疑似相関に対する DNN の脆弱性が、データの出所を示すツールに効果的に変わります。
私たちの結果は、複数の設定で有効性を確認し、何百もの同位体を高精度で検出および区別しています。
さらに、私たちのシステムがパブリック ML-as-a-service プラットフォームや ImageNet などのより大きなモデルで動作し、デジタル マークの代わりに物理オブジェクトを使用でき、いくつかの適応型対策に対して一般的に堅牢であることを示します。

要約(オリジナル)

Today, creators of data-hungry deep neural networks (DNNs) scour the Internet for training fodder, leaving users with little control over or knowledge of when their data is appropriated for model training. To empower users to counteract unwanted data use, we design, implement and evaluate a practical system that enables users to detect if their data was used to train an DNN model. We show how users can create special data points we call isotopes, which introduce ‘spurious features’ into DNNs during training. With only query access to a trained model and no knowledge of the model training process, or control of the data labels, a user can apply statistical hypothesis testing to detect if a model has learned the spurious features associated with their isotopes by training on the user’s data. This effectively turns DNNs’ vulnerability to memorization and spurious correlations into a tool for data provenance. Our results confirm efficacy in multiple settings, detecting and distinguishing between hundreds of isotopes with high accuracy. We further show that our system works on public ML-as-a-service platforms and larger models such as ImageNet, can use physical objects instead of digital marks, and remains generally robust against several adaptive countermeasures.

arxiv情報

著者 Emily Wenger,Xiuyu Li,Ben Y. Zhao,Vitaly Shmatikov
発行日 2023-02-27 18:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク