Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks

要約

バックドア攻撃により、攻撃者は機械学習アルゴリズムに特定の脆弱性を埋め込むことができ、攻撃者が選択したパターンが提示されたときに起動され、特定の予測ミスを引き起こすことができます。
生体認証シナリオでバックドアを特定する必要があるため、私たちはさまざまなトレードオフを持つ新しい技術を提案することにしました。
この論文では、バックドアを検出するための開集合分類タスクでモデル ペアを使用することを提案します。
単純な線形演算を使用して、プローブ モデルの埋め込み空間から参照モデルの埋め込み空間に埋め込みを投影することで、両方の埋め込みを比較し、類似性スコアを計算できます。
モデルが異なるアーキテクチャであり、独立して異なるデータセットでトレーニングされているにもかかわらず、このスコアがバックドアの存在の指標となり得ることを示します。
この手法により、文献ではほとんど研究されていない、開集合分類タスク用に設計されたモデル上のバックドアの検出が可能になります。
さらに、両方のモデルがバックドアを備えている場合でもバックドアを検出できることを示します。
ソース コードは再現性を目的として公開されています。

要約(オリジナル)

Backdoor attacks allow an attacker to embed a specific vulnerability in a machine learning algorithm, activated when an attacker-chosen pattern is presented, causing a specific misprediction. The need to identify backdoors in biometric scenarios has led us to propose a novel technique with different trade-offs. In this paper we propose to use model pairs on open-set classification tasks for detecting backdoors. Using a simple linear operation to project embeddings from a probe model’s embedding space to a reference model’s embedding space, we can compare both embeddings and compute a similarity score. We show that this score, can be an indicator for the presence of a backdoor despite models being of different architectures, having been trained independently and on different datasets. This technique allows for the detection of backdoors on models designed for open-set classification tasks, which is little studied in the literature. Additionally, we show that backdoors can be detected even when both models are backdoored. The source code is made available for reproducibility purposes.

arxiv情報

著者 Alexander Unnervik,Hatef Otroshi Shahreza,Anjith George,Sébastien Marcel
発行日 2024-11-04 13:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク