Transpose Attack: Stealing Datasets with Bidirectional Training

要約

ディープ ニューラル ネットワークは通常、順方向に実行されます。
ただし、この作業では、モデルを両方向および異なるタスクでトレーニングできるようにする脆弱性を特定しました。
攻撃者はこの機能を悪用して、一見正当なモデル内に不正なモデルを隠すことができます。
さらに、この研究では、データセットから特定のサンプルを体系的に記憶し、取得するようにニューラル ネットワークを学習できることを示します。
これらの発見を総合すると、攻撃者が正当なモデルを装って保護された学習環境からデータセットを盗み出すことができる新しい方法が明らかになります。
私たちはデータ漏洩攻撃に焦点を当て、最新のアーキテクチャを使用して、データのプライバシーを侵害し、さらには新しいモデルをトレーニングするのに十分な忠実度で数万のサンプルを秘密裏に漏洩できることを示します。
さらに、この脅威を軽減するために、感染したモデルを検出するための新しいアプローチを提案します。

要約(オリジナル)

Deep neural networks are normally executed in the forward direction. However, in this work, we identify a vulnerability that enables models to be trained in both directions and on different tasks. Adversaries can exploit this capability to hide rogue models within seemingly legitimate models. In addition, in this work we show that neural networks can be taught to systematically memorize and retrieve specific samples from datasets. Together, these findings expose a novel method in which adversaries can exfiltrate datasets from protected learning environments under the guise of legitimate models. We focus on the data exfiltration attack and show that modern architectures can be used to secretly exfiltrate tens of thousands of samples with high fidelity, high enough to compromise data privacy and even train new models. Moreover, to mitigate this threat we propose a novel approach for detecting infected models.

arxiv情報

著者 Guy Amit,Mosh Levy,Yisroel Mirsky
発行日 2024-05-17 17:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク