要約
我々は、敵対的なサンプルや分布外のサンプルを検出するために、勾配を利用することを提案する。我々は勾配生成の際に交絡ラベル(学習時に見た通常のラベルとは異なるラベル)を導入し、ニューラルネットワークの有効な表現力を探る。勾配は、与えられた入力を適切に表現するために必要なモデルの変化量を表し、ネットワークの構造的特性や学習データによって確立されるモデルの表現力を知ることができる。異なるデザインのラベルを導入することで、推論時の勾配生成における基底真理ラベルへの依存を取り除くことができる。我々の勾配に基づくアプローチにより、ハイパーパラメータのチューニングや追加処理なしに、モデルの有効表現力に基づいて入力の異常を捉えることができ、敵対的検出や分布外検出において最先端の手法を凌駕することが示された。
要約(オリジナル)
We propose to utilize gradients for detecting adversarial and out-of-distribution samples. We introduce confounding labels — labels that differ from normal labels seen during training — in gradient generation to probe the effective expressivity of neural networks. Gradients depict the amount of change required for a model to properly represent given inputs, providing insight into the representational power of the model established by network architectural properties as well as training data. By introducing a label of different design, we remove the dependency on ground truth labels for gradient generation during inference. We show that our gradient-based approach allows for capturing the anomaly in inputs based on the effective expressivity of the models with no hyperparameter tuning or additional processing, and outperforms state-of-the-art methods for adversarial and out-of-distribution detection.
arxiv情報
著者 | Jinsol Lee,Mohit Prabhushankar,Ghassan AlRegib |
発行日 | 2022-07-04 17:10:45+00:00 |
arxivサイト | arxiv_id(pdf) |