要約
ニューラル表現の確率モデルを活用して、残差ネットワークがクラスにどのように適合するかを調査します。
この目的のために、深い ResNets によって学習された表現のクラス条件付き密度モデルを推定します。
次に、これらのモデルを使用して、学習したクラス全体の表現の分布を特徴付けます。
驚くべきことに、調査したモデルのクラスは均一に適合していないことがわかりました。
それどころか、表現の分布が著しく異なるクラスの 2 つのグループを明らかにします。
クラスフィッティングのこれらの異なるモードは、調査されたモデルのより深いレイヤーでのみ明らかであり、低レベルの画像機能に関連していないことを示しています。
ニューラル表現のカバーされていない構造が、トレーニング例の記憶と敵対的ロバスト性と相関することを示します。
最後に、記憶された例と典型的な例の間で神経表現のクラス条件分布を比較します。
これにより、記憶された標準入力のクラス ラベルがネットワーク構造のどこで発生するかを明らかにすることができます。
要約(オリジナル)
We leverage probabilistic models of neural representations to investigate how residual networks fit classes. To this end, we estimate class-conditional density models for representations learned by deep ResNets. We then use these models to characterize distributions of representations across learned classes. Surprisingly, we find that classes in the investigated models are not fitted in an uniform way. On the contrary: we uncover two groups of classes that are fitted with markedly different distributions of representations. These distinct modes of class-fitting are evident only in the deeper layers of the investigated models, indicating that they are not related to low-level image features. We show that the uncovered structure in neural representations correlate with memorization of training examples and adversarial robustness. Finally, we compare class-conditional distributions of neural representations between memorized and typical examples. This allows us to uncover where in the network structure class labels arise for memorized and standard inputs.
arxiv情報
著者 | Michał Jamroż,Marcin Kurdziel |
発行日 | 2022-12-01 18:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google