要約
AI モデル、特にディープラーニングにおける複雑さの増大により、特に医療診断などの一か八かのアプリケーションにおいて、不透明なモデルが信頼を損なう可能性があるため、透明性と説明責任に対する懸念が生じています。
Explainable Artificial Intelligence (XAI) は、明確で解釈可能なモデルを提供することで、これらの問題に対処することを目的としています。
XAI 技術の中でも、コンセプト ボトルネック モデル (CBM) は、高レベルのセマンティック概念を使用して透明性を高めます。
ただし、CBM は概念レベルのバックドア攻撃に対して脆弱であり、これらの概念に隠れたトリガーが挿入され、検出できない異常な動作が引き起こされます。
この重大なセキュリティギャップに対処するために、コンセプトレベルのバックドア攻撃から CBM を保護するために特別に設計された新しい防御フレームワークである ConceptGuard を導入します。
ConceptGuard は、潜在的なトリガーを分離して軽減するために、テキスト距離測定に基づく概念クラスタリングや、さまざまな概念サブグループでトレーニングされた分類器間の投票メカニズムなどの多段階アプローチを採用しています。
私たちの貢献は 3 つあります。(i) CBM におけるコンセプトレベルのバックドア攻撃に合わせて調整された最初の防御メカニズムとして ConceptGuard を提示します。
(ii) ConceptGuard が特定のトリガー サイズのしきい値内でそのような攻撃を効果的に防御し、堅牢性を確保できるという理論上の保証を提供します。
(iii) ConceptGuard が信頼性にとって重要な CBM の高いパフォーマンスと解釈可能性を維持していることを実証します。
包括的な実験と理論的証明を通じて、ConceptGuard が CBM のセキュリティと信頼性を大幅に強化し、重要なアプリケーションへの安全な導入への道を開くことを示します。
要約(オリジナル)
The increasing complexity of AI models, especially in deep learning, has raised concerns about transparency and accountability, particularly in high-stakes applications like medical diagnostics, where opaque models can undermine trust. Explainable Artificial Intelligence (XAI) aims to address these issues by providing clear, interpretable models. Among XAI techniques, Concept Bottleneck Models (CBMs) enhance transparency by using high-level semantic concepts. However, CBMs are vulnerable to concept-level backdoor attacks, which inject hidden triggers into these concepts, leading to undetectable anomalous behavior. To address this critical security gap, we introduce ConceptGuard, a novel defense framework specifically designed to protect CBMs from concept-level backdoor attacks. ConceptGuard employs a multi-stage approach, including concept clustering based on text distance measurements and a voting mechanism among classifiers trained on different concept subgroups, to isolate and mitigate potential triggers. Our contributions are threefold: (i) we present ConceptGuard as the first defense mechanism tailored for concept-level backdoor attacks in CBMs; (ii) we provide theoretical guarantees that ConceptGuard can effectively defend against such attacks within a certain trigger size threshold, ensuring robustness; and (iii) we demonstrate that ConceptGuard maintains the high performance and interpretability of CBMs, crucial for trustworthiness. Through comprehensive experiments and theoretical proofs, we show that ConceptGuard significantly enhances the security and trustworthiness of CBMs, paving the way for their secure deployment in critical applications.
arxiv情報
著者 | Songning Lai,Yu Huang,Jiayu Yang,Gaoxiang Huang,Wenshuo Chen,Yutao Yue |
発行日 | 2024-11-25 15:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google