Certifiers Make Neural Networks Vulnerable to Availability Attacks

要約

信頼性が高く、ロバストで安全なAIシステムを実現するためには、AIの予測が信頼できない場合のフォールバック戦略を実装することが不可欠である。ニューラルネットワークの認証子は、予測のロバスト性をチェックする信頼できる方法である。これは、ある種の操作や攻撃によって結果が変化しないことを、いくつかの予測に対して保証するものである。保証のない残りの予測については、メソッドは予測を行わず、フォールバック戦略を呼び出す必要がある。これは安全でセキュアなAIに向けた重要なコンセプトであるが、このようなフォールバック戦略は敵によって意図的に発動される可能性があるため、このアプローチには独自のセキュリティリスクが伴うことを初めて示す。いくつかの入力や摂動に対して自然に発生する棄権に加えて、敵は訓練時間攻撃を使って、高い確率でフォールバックを意図的に引き起こすことができる。これにより、主システムの負荷がフォールバックに移行し、システム全体の完全性や可用性が低下する。我々は2つの新しい可用性攻撃を設計し、これらの脅威の実用的な妥当性を示す。例えば、訓練中に1%の毒入りデータを追加することは、フォールバックをトリガーするのに十分であり、従ってトリガーを挿入することによって、全ての入力の最大100%に対してモデルを利用不可能にする。複数のデータセット、モデルアーキテクチャ、認証機関にわたる広範な実験により、これらの攻撃が幅広く適用可能であることが実証された。潜在的な防御策に関する初期の調査から、現在のアプローチではこの問題を軽減するには不十分であることがわかり、新しい具体的な解決策の必要性が浮き彫りになりました。

要約(オリジナル)

To achieve reliable, robust, and safe AI systems, it is vital to implement fallback strategies when AI predictions cannot be trusted. Certifiers for neural networks are a reliable way to check the robustness of these predictions. They guarantee for some predictions that a certain class of manipulations or attacks could not have changed the outcome. For the remaining predictions without guarantees, the method abstains from making a prediction, and a fallback strategy needs to be invoked, which typically incurs additional costs, can require a human operator, or even fail to provide any prediction. While this is a key concept towards safe and secure AI, we show for the first time that this approach comes with its own security risks, as such fallback strategies can be deliberately triggered by an adversary. In addition to naturally occurring abstains for some inputs and perturbations, the adversary can use training-time attacks to deliberately trigger the fallback with high probability. This transfers the main system load onto the fallback, reducing the overall system’s integrity and/or availability. We design two novel availability attacks, which show the practical relevance of these threats. For example, adding 1% poisoned data during training is sufficient to trigger the fallback and hence make the model unavailable for up to 100% of all inputs by inserting the trigger. Our extensive experiments across multiple datasets, model architectures, and certifiers demonstrate the broad applicability of these attacks. An initial investigation into potential defenses shows that current approaches are insufficient to mitigate the issue, highlighting the need for new, specific solutions.

arxiv情報

著者 Tobias Lorenz,Marta Kwiatkowska,Mario Fritz
発行日 2023-10-03 13:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク