要約
データおよびコンピューティングリソースが限られている機関は、事前に定義された学習パラダイム(監視済みまたは半監視学習)を備えた規定のトレーニングプロトコルの順守を想定して、半分の環境でサードパーティプロバイダーにモデルトレーニングを外部委託することがよくあります。
ただし、敵がトレーニングデータを毒殺してバックドアを得られたモデルに埋め込む可能性があるため、このプラクティスは深刻なセキュリティリスクを導入する可能性があります。
既存の検出アプローチは、主に統計分析に依存しています。統計分析は、さまざまな学習パラダイム全体で普遍的に正確な検出精度を維持できないことがよくあります。
この課題に対処するために、2つの独立したサービスプロバイダー間でモデルの矛盾の反対尋問を悪用する半正面設定で、統一されたバックドア検出フレームワークを提案します。
具体的には、中央のカーネルアライメントを統合して、さまざまなモデルアーキテクチャと学習パラダイムで堅牢な特徴の類似性測定を可能にし、それにより、バックドアトリガーの正確な回復と識別を促進します。
さらに、バックドアの微調整された感度分析を導入して、バックドアトリガーを敵対的な摂動と区別し、誤検知を大幅に減らします。
広範な実験では、この方法が優れた検出性能を達成し、それぞれ監視、半監視、および自己回帰学習タスク全体でSOTAベースラインで5.4%、1.6%、および11.9%を改善することが示されています。
特に、マルチモーダルの大手言語モデルでバックドアを効果的に検出したのは最初であり、その幅広い適用性と安全な深い学習の進歩をさらに強調しています。
要約(オリジナル)
Institutions with limited data and computing resources often outsource model training to third-party providers in a semi-honest setting, assuming adherence to prescribed training protocols with pre-defined learning paradigm (e.g., supervised or semi-supervised learning). However, this practice can introduce severe security risks, as adversaries may poison the training data to embed backdoors into the resulting model. Existing detection approaches predominantly rely on statistical analyses, which often fail to maintain universally accurate detection accuracy across different learning paradigms. To address this challenge, we propose a unified backdoor detection framework in the semi-honest setting that exploits cross-examination of model inconsistencies between two independent service providers. Specifically, we integrate central kernel alignment to enable robust feature similarity measurements across different model architectures and learning paradigms, thereby facilitating precise recovery and identification of backdoor triggers. We further introduce backdoor fine-tuning sensitivity analysis to distinguish backdoor triggers from adversarial perturbations, substantially reducing false positives. Extensive experiments demonstrate that our method achieves superior detection performance, improving accuracy by 5.4%, 1.6%, and 11.9% over SoTA baselines across supervised, semi-supervised, and autoregressive learning tasks, respectively. Notably, it is the first to effectively detect backdoors in multimodal large language models, further highlighting its broad applicability and advancing secure deep learning.
arxiv情報
著者 | Xuan Wang,Siyuan Liang,Dongping Liao,Han Fang,Aishan Liu,Xiaochun Cao,Yu-liang Lu,Ee-Chien Chang,Xitong Gao |
発行日 | 2025-04-01 08:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google