要約
データセット蒸留(DD)は、トレーニング効率を高め、大きなデータセットをより小さな合成データに凝縮することにより帯域幅を減らします。
これにより、モデルは、生の完全なデータセットでトレーニングされたものに匹敵するパフォーマンスを実現でき、データ共有のために広く採用された方法になりました。
ただし、DDのセキュリティ上の懸念は未定のままです。
既存の研究では、通常、悪意のある行動は、バックドアが生データセットに注入される最初の蒸留プロセス中にデータセット所有者から発生すると想定しています。
対照的に、この作業は、より現実的で懸念される脅威に対処する最初の作業です。攻撃者は、データセット分布プロセスを傍受し、バックドアを蒸留データセットに注入し、ユーザーに再配布することができます。
蒸留データセットは以前はバックドア攻撃に対して耐性があると考えられていましたが、それらがそのような攻撃に対して脆弱なままであることを示しています。
さらに、攻撃者はバックドアを正常に挿入するために生データにアクセスする必要さえないことを示しています。
具体的には、私たちのアプローチは、蒸留データセットでトレーニングされたモデルから各クラスの概念アーキタイプを再構築します。
その後、バックドアをこれらのアーキタイプに注入して、蒸留データセットを更新します。
さらに、更新されたデータセットがバックドアを保持するだけでなく、元の最適化軌道を保持していることを確認し、生データセットの知識を維持します。
これを達成するために、ハイブリッド損失は、良性の最適化軌跡に沿ってバックドア情報を統合し、以前に学習した情報が忘れられないように設計されています。
広範な実験では、蒸留データセットがバックドア攻撃に対して非常に脆弱であり、さまざまな生データセット、蒸留方法、および下流のトレーニング戦略に普及するリスクがあることが示されています。
さらに、攻撃方法は効率的であり、特定のケースでは1分未満で悪意のある蒸留データセットを合成できます。
要約(オリジナル)
Dataset distillation (DD) enhances training efficiency and reduces bandwidth by condensing large datasets into smaller synthetic ones. It enables models to achieve performance comparable to those trained on the raw full dataset and has become a widely adopted method for data sharing. However, security concerns in DD remain underexplored. Existing studies typically assume that malicious behavior originates from dataset owners during the initial distillation process, where backdoors are injected into raw datasets. In contrast, this work is the first to address a more realistic and concerning threat: attackers may intercept the dataset distribution process, inject backdoors into the distilled datasets, and redistribute them to users. While distilled datasets were previously considered resistant to backdoor attacks, we demonstrate that they remain vulnerable to such attacks. Furthermore, we show that attackers do not even require access to any raw data to inject the backdoors successfully. Specifically, our approach reconstructs conceptual archetypes for each class from the model trained on the distilled dataset. Backdoors are then injected into these archetypes to update the distilled dataset. Moreover, we ensure the updated dataset not only retains the backdoor but also preserves the original optimization trajectory, thus maintaining the knowledge of the raw dataset. To achieve this, a hybrid loss is designed to integrate backdoor information along the benign optimization trajectory, ensuring that previously learned information is not forgotten. Extensive experiments demonstrate that distilled datasets are highly vulnerable to backdoor attacks, with risks pervasive across various raw datasets, distillation methods, and downstream training strategies. Moreover, our attack method is efficient, capable of synthesizing a malicious distilled dataset in under one minute in certain cases.
arxiv情報
著者 | Ziyuan Yang,Ming Yan,Yi Zhang,Joey Tianyi Zhou |
発行日 | 2025-02-06 17:14:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google