FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks

要約

最新の機械学習モデルは、トレーニング データ (ポイズニング攻撃) と推論データ (敵対的な例) の両方の操作に敏感です。
この問題を認識して、コミュニティは両方の攻撃に対する多くの経験的防御策を開発し、さらに最近では、推論時攻撃に対する証明可能な保証を備えた認証方法を開発しました。
ただし、トレーニング時の攻撃には、そのような保証がまだほとんど欠けています。
この研究では、トレーニング時と推論時の両方の攻撃に対する堅牢性を証明する、健全で決定的な境界を持つ初のエンドツーエンド認証者である FullCert を紹介します。
まず、検討された脅威モデルの下で、敵対者がトレーニング データに対して行う可能性のあるすべての摂動を制限しました。
これらの制約を使用して、モデルのパラメーターに対する摂動の影響を制限しました。
最後に、これらのパラメーター変更の影響をモデルの予測に限定し、ポイズニングや敵対的な例に対する共同堅牢性の保証を実現しました。
この新しい認証パラダイムを促進するために、私たちは理論的な研究を新しいオープンソース ライブラリ BoundFlow と組み合わせます。これにより、制限されたデータセットでのモデル トレーニングが可能になります。
私たちは 2 つのデータセットで FullCert の実現可能性を実験的に実証します。

要約(オリジナル)

Modern machine learning models are sensitive to the manipulation of both the training data (poisoning attacks) and inference data (adversarial examples). Recognizing this issue, the community has developed many empirical defenses against both attacks and, more recently, certification methods with provable guarantees against inference-time attacks. However, such guarantees are still largely lacking for training-time attacks. In this work, we present FullCert, the first end-to-end certifier with sound, deterministic bounds, which proves robustness against both training-time and inference-time attacks. We first bound all possible perturbations an adversary can make to the training data under the considered threat model. Using these constraints, we bound the perturbations’ influence on the model’s parameters. Finally, we bound the impact of these parameter changes on the model’s prediction, resulting in joint robustness guarantees against poisoning and adversarial examples. To facilitate this novel certification paradigm, we combine our theoretical work with a new open-source library BoundFlow, which enables model training on bounded datasets. We experimentally demonstrate FullCert’s feasibility on two datasets.

arxiv情報

著者 Tobias Lorenz,Marta Kwiatkowska,Mario Fritz
発行日 2024-09-11 12:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク