要約
ディープニューラルネットワーク(DNN)は、学習した表現からその力を引き出します。しかし近年、DNNは複雑な抽象表現を学習するのに非常に有効である一方で、学習データに内在する偽の相関関係により、バイアス、クレバーハンセ(CH)、バックドアなどのアーティファクトに感染する傾向があることが分かっています。これまでのところ、学習済みモデルにおけるこのような人工物や悪意のある動作を発見するための既存の手法は、入力データにおける人工物の発見に焦点を当てており、これはデータセットの利用可能性と人間の介入の両方を必要とするものである。本論文では、DORA (Data-agnOstic Representation Analysis) を紹介する。これは、Deep Neural Networksにおいて潜在的に感染した表現を検出するための初の自動データ診断手法である。さらに、DORAによって発見された汚染された表現が、任意のデータセットにおいて感染したサンプルを検出するために使用できることを示す。我々は、制御されたおもちゃのシナリオと実世界の設定の両方において、提案手法の性能を定性的、定量的に評価し、セーフティクリティカルなアプリケーションにおけるDORAの利点を実証する。
要約(オリジナル)
Deep Neural Networks (DNNs) draw their power from the representations they learn. In recent years, however, researchers have found that DNNs, while being incredibly effective in learning complex abstractions, also tend to be infected with artifacts, such as biases, Clever Hanses (CH), or Backdoors, due to spurious correlations inherent in the training data. So far, existing methods for uncovering such artifactual and malicious behavior in trained models focus on finding artifacts in the input data, which requires both availabilities of a data set and human intervention. In this paper, we introduce DORA (Data-agnOstic Representation Analysis): the first automatic data-agnostic method for the detection of potentially infected representations in Deep Neural Networks. We further show that contaminated representations found by DORA can be used to detect infected samples in any given dataset. We qualitatively and quantitatively evaluate the performance of our proposed method in both, controlled toy scenarios, and in real-world settings, where we demonstrate the benefit of DORA in safety-critical applications.
arxiv情報
著者 | Kirill Bykov,Mayukh Deb,Dennis Grinwald,Klaus-Robert Müller,Marina M. -C. Höhne |
発行日 | 2022-06-09 14:25:14+00:00 |
arxivサイト | arxiv_id(pdf) |