要約
すべての学習可能なパラメータ (重みなど) がニューラル ネットワークの決定関数に等しく寄与するわけではありません。
実際、モデルの決定にほとんど影響を与えずに、レイヤー全体のパラメーターがランダムな値にリセットされる場合があります。
アーキテクチャとタスクの複雑さがこの現象にどのような影響を与えるかを調査した以前の研究を再検討し、この現象はモデルのトレーニング方法にも影響されるのか? と考えます。
これを調査するために、アーキテクチャとトレーニング データを一定に保ちながらトレーニング パイプラインを変化させながら、ImageNet-1k 分類モデルの多様なセットに対して実験的評価を実施しました。
私たちの調査結果は、トレーニング方法が、特定のタスクの意思決定機能にとってどの層が重要になるかに強い影響を与えることを明らかにしました。
たとえば、トレーニング体制の改善と自己教師付きトレーニングにより、初期層の重要性が高まる一方で、より深い層は大幅に活用されていません。
対照的に、敵対的トレーニングなどの方法では逆の傾向が見られます。
私たちの予備的な結果は以前の発見を拡張し、ニューラル ネットワークの内部機構についてのより微妙な理解を提供します。
コード: https://github.com/paulgavrikov/layer_criticality
要約(オリジナル)
Not all learnable parameters (e.g., weights) contribute equally to a neural network’s decision function. In fact, entire layers’ parameters can sometimes be reset to random values with little to no impact on the model’s decisions. We revisit earlier studies that examined how architecture and task complexity influence this phenomenon and ask: is this phenomenon also affected by how we train the model? We conducted experimental evaluations on a diverse set of ImageNet-1k classification models to explore this, keeping the architecture and training data constant but varying the training pipeline. Our findings reveal that the training method strongly influences which layers become critical to the decision function for a given task. For example, improved training regimes and self-supervised training increase the importance of early layers while significantly under-utilizing deeper layers. In contrast, methods such as adversarial training display an opposite trend. Our preliminary results extend previous findings, offering a more nuanced understanding of the inner mechanics of neural networks. Code: https://github.com/paulgavrikov/layer_criticality
arxiv情報
著者 | Paul Gavrikov,Shashank Agnihotri,Margret Keuper,Janis Keuper |
発行日 | 2024-10-18 13:54:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google