DORA: Exploring outlier representations in Deep Neural Networks

要約

タイトル:DORA:深層ニューラルネットワークにおける異常な表現を探索する

要約:
– DNNsは複雑な抽象を学ぶ上で非常に効果的であるが、トレーニングデータから偶然異常なアーティファクトを学習する可能性がある。
– モデルの透明性を確保するためには、学習された表現の関係を調べることが重要であり、意図しない概念が望ましいタスクから外れて異常であることがあるためである。
– この論文では、DNNの表現空間の分析に向けた最初のデータ非依存フレームワークであるDORA(Data-agnostic Representation Analysis)を紹介する。
– このフレームワークは、EA(Extreme-Activation)距離測定を使用し、データにアクセスせずにネットワーク内の自己説明能力を利用して表現と表現間の距離を測定する。
– 提案されたメトリックの正確さと人間が定義する意味的距離との整合性を定量的に検証し、EA距離と人間の判断力の一致により、機能的距離の外れ値を識別することで、人間にとって不自然な概念を持つ表現を特定できる。
– 最後に、DORAの実用的な有用性を示すために、人気のあるコンピュータビジョンモデルでアーティファクト表現を分析し、特定する。

要約(オリジナル)

Although Deep Neural Networks (DNNs) are incredibly effective in learning complex abstractions, they are susceptible to unintentionally learning spurious artifacts from the training data. To ensure model transparency, it is crucial to examine the relationships between learned representations, as unintended concepts often manifest themselves to be anomalous to the desired task. In this work, we introduce DORA (Data-agnOstic Representation Analysis): the first data-agnostic framework for the analysis of the representation space of DNNs. Our framework employs the proposed Extreme-Activation (EA) distance measure between representations that utilizes self-explaining capabilities within the network without accessing any data. We quantitatively validate the metric’s correctness and alignment with human-defined semantic distances. The coherence between the EA distance and human judgment enables us to identify representations whose underlying concepts would be considered unnatural by humans by identifying outliers in functional distance. Finally, we demonstrate the practical usefulness of DORA by analyzing and identifying artifact representations in popular Computer Vision models.

arxiv情報

著者 Kirill Bykov,Mayukh Deb,Dennis Grinwald,Klaus-Robert Müller,Marina M. -C. Höhne
発行日 2023-04-27 12:07:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク