Do Invariances in Deep Neural Networks Align with Human Perception?

要約

安全で信頼できるディープ ラーニングの評価基準は、ディープ ニューラル ネットワーク (DNN) の表現によってキャプチャされた不変性が人間とどれだけうまく共有されているかです。
これらの不変性を測定する際の課題を特定します。
以前の研究では、勾配ベースの方法を使用して \textit{同一に表現された入力} (IRI)、\つまり、ニューラル ネットワークの (特定の層で) 同一の表現を持つ入力を生成し、特定のネットワークの不変性をキャプチャしました。
ネットワークの不変性が人間の知覚と一致するために必要な基準の 1 つは、その IRI が人間に「似ている」ように見えることです。
ただし、以前の作品には要点が混在しています。
DNN の後の層は人間のような不変性を学習しないと主張する人もいますが (\cite{jenelle2019metamers})、そうでないことを示しているように見える人もいます (\cite{mahendran2014understanding})。
IRI を生成するために使用される損失関数は、ネットワークの不変性に関する要点に大きな影響を与える可能性があり、これらの相反する発見の主な理由であると主張します。
任意のモデルが人間とほとんど共有されていない不変性を持っているように見える IRI を見つける、IRI 生成損失に関する \textit{adversarial} 正則化を提案します。
この証拠に基づいて、人間のような不変性を持つようにモデルを改善する余地があり、さらに、モデル間の意味のある比較を行うには、\textit{regularizer-free} 損失を使用して生成された IRI を使用する必要があると主張します。
次に、ディープ ラーニング パイプラインのさまざまなコンポーネント (アーキテクチャ、トレーニング ロス、データ拡張など) が、人間とよく一致するモデルの学習にどのように寄与するかについて、詳細な調査を行います。
$\ell_p$ ボールの敵対的データ増強による (自己教師あり) 対照的損失を使用してトレーニングされた残差接続を持つアーキテクチャは、人間と最も一致する不変性を学習する傾向があることがわかりました。

要約(オリジナル)

An evaluation criterion for safe and trustworthy deep learning is how well the invariances captured by representations of deep neural networks (DNNs) are shared with humans. We identify challenges in measuring these invariances. Prior works used gradient-based methods to generate \textit{identically represented inputs} (IRIs), \ie, inputs which have identical representations (on a given layer) of a neural network, and thus capture invariances of a given network. One necessary criterion for a network’s invariances to align with human perception is for its IRIs look `similar` to humans. Prior works, however, have mixed takeaways; some argue that later layers of DNNs do not learn human-like invariances (\cite{jenelle2019metamers}) yet others seem to indicate otherwise (\cite{mahendran2014understanding}). We argue that the loss function used to generate IRIs can heavily affect takeaways about invariances of the network and is the primary reason for these conflicting findings. We propose an \textit{adversarial} regularizer on the IRI generation loss that finds IRIs that make any model appear to have very little shared invariance with humans. Based on this evidence, we argue that there is scope for improving models to have human-like invariances, and further, to have meaningful comparisons between models one should use IRIs generated using the \textit{regularizer-free} loss. We then conduct an in-depth investigation of how different components (\eg~architectures, training losses, data augmentations) of the deep learning pipeline contribute to learning models that have good alignment with humans. We find that architectures with residual connections trained using a (self-supervised) contrastive loss with $\ell_p$ ball adversarial data augmentation tend to learn invariances that are most aligned with humans.

arxiv情報

著者 Vedant Nanda,Ayan Majumdar,Camila Kolling,John P. Dickerson,Krishna P. Gummadi,Bradley C. Love,Adrian Weller
発行日 2022-08-16 17:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク