要約
データポイズニング攻撃は現代の AI システムにとって最大の脅威の 1 つであり、堅牢な防御が必要です。
経験に基づいた防御策を開発するために多大な努力が払われてきましたが、攻撃者は進化し続けており、これらの対策を回避するための高度な方法を作成しています。
これに対処するには、経験に基づく防御を超えて、堅牢性を保証する証明可能な認証方法を確立する必要があります。
このペーパーでは、双線形混合整数計画法 (BMIP) を使用して、このような証明可能な堅牢性を提供する健全な決定論的境界を計算する、新しい認証アプローチ BiCert を紹介します。
BMIP を使用して、操作された可能性のあるデータを使用したトレーニングから得られる、到達可能なパラメーターのセットを計算します。
この計算を実行可能にする重要な要素は、トレーニング反復間の到達可能なパラメーター セットを凸セットに緩和することです。
テスト時に、このパラメーター セットを使用すると、考えられるすべての結果を予測でき、堅牢性が保証されます。
BiCert は、間隔と多面体の境界のみに依存する以前の方法よりも正確です。
重要なことは、私たちのアプローチは、パラメーターの範囲が制御不能に拡大することしかできなかった従来のアプローチの根本的な制限を克服することです。
BiCert のより厳しい境界により発散問題の主要な原因が排除され、その結果、より安定したトレーニングとより高い認定精度が得られることを示します。
要約(オリジナル)
Data poisoning attacks pose one of the biggest threats to modern AI systems, necessitating robust defenses. While extensive efforts have been made to develop empirical defenses, attackers continue to evolve, creating sophisticated methods to circumvent these measures. To address this, we must move beyond empirical defenses and establish provable certification methods that guarantee robustness. This paper introduces a novel certification approach, BiCert, using Bilinear Mixed Integer Programming (BMIP) to compute sound deterministic bounds that provide such provable robustness. Using BMIP, we compute the reachable set of parameters that could result from training with potentially manipulated data. A key element to make this computation feasible is to relax the reachable parameter set to a convex set between training iterations. At test time, this parameter set allows us to predict all possible outcomes, guaranteeing robustness. BiCert is more precise than previous methods, which rely solely on interval and polyhedral bounds. Crucially, our approach overcomes the fundamental limitation of prior approaches where parameter bounds could only grow, often uncontrollably. We show that BiCert’s tighter bounds eliminate a key source of divergence issues, resulting in more stable training and higher certified accuracy.
arxiv情報
著者 | Tobias Lorenz,Marta Kwiatkowska,Mario Fritz |
発行日 | 2024-12-13 14:56:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google