Prompting the Unseen: Detecting Hidden Backdoors in Black-Box Models

要約

ビジュアル プロンプト (VP) は、ソース ドメイン タスクの十分にトレーニングされた凍結モデルをターゲット ドメイン タスクに適応させる新しい手法です。
この研究では、ブラック ボックス モデル レベルのバックドア検出に対する VP の利点を検証します。
VP の視覚的なプロンプトは、ソース ドメインとターゲット ドメイン間のクラス サブスペースをマップします。
クリーンなデータセットと汚染されたデータセットの間で、クラス部分空間の不一致と呼ばれる不整合が特定されました。
これに基づいて、疑わしいモデルにバックドアがある場合にそれを特定するブラックボックス モデル レベルの検出方法である \textsc{BProm} を紹介します。
\textsc{BProm} は、バックドアが存在する場合にプロンプ​​ト モデルの分類精度が低いことを利用します。
広範な実験により、\textsc{BProm} の有効性が確認されました。

要約(オリジナル)

Visual prompting (VP) is a new technique that adapts well-trained frozen models for source domain tasks to target domain tasks. This study examines VP’s benefits for black-box model-level backdoor detection. The visual prompt in VP maps class subspaces between source and target domains. We identify a misalignment, termed class subspace inconsistency, between clean and poisoned datasets. Based on this, we introduce \textsc{BProm}, a black-box model-level detection method to identify backdoors in suspicious models, if any. \textsc{BProm} leverages the low classification accuracy of prompted models when backdoors are present. Extensive experiments confirm \textsc{BProm}’s effectiveness.

arxiv情報

著者 Zi-Xuan Huang,Jia-Wei Chen,Zhi-Peng Zhang,Chia-Mu Yu
発行日 2024-11-14 15:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク