ResidualDroppath: Enhancing Feature Reuse over Residual Connections

要約

残留接続は、勾配消失問題を軽減し、より深いネットワークのトレーニングを容易にするニューラル ネットワーク アーキテクチャの最も重要なコンポーネントの 1 つです。
残留接続がより深いネットワーク トレーニングにどのように役立つかについて考えられる説明の 1 つは、特徴の再利用を促進することです。
ただし、バニラの残りの接続を使用した機能の再利用の制限を特定し、分析します。
これらの制限に対処するために、トレーニング方法の変更を提案します。
具体的には、トレーニング中に 2 種類の反復を通じて、モデルが残留接続を使用して特徴の再利用を学習する追加の機会を提供します。
最初のタイプの反復には、ドロップパスの使用が含まれます。これは、レイヤーのサブセットをランダムにドロップすることによって機能の再利用を強制します。
2 番目のタイプの反復では、モデルのドロップされなかった部分をフリーズしながら、ドロップされた部分をトレーニングすることに焦点を当てます。
その結果、モデルは機能の再利用を念頭に置いてドロップされなかった部分に依存するため、ドロップされた部分は機能の再利用を促進する方法で学習します。
全体として、特定の場合における画像分類の残りの接続を備えたモデルのパフォーマンスの向上を実証しました。

要約(オリジナル)

Residual connections are one of the most important components in neural network architectures for mitigating the vanishing gradient problem and facilitating the training of much deeper networks. One possible explanation for how residual connections aid deeper network training is by promoting feature reuse. However, we identify and analyze the limitations of feature reuse with vanilla residual connections. To address these limitations, we propose modifications in training methods. Specifically, we provide an additional opportunity for the model to learn feature reuse with residual connections through two types of iterations during training. The first type of iteration involves using droppath, which enforces feature reuse by randomly dropping a subset of layers. The second type of iteration focuses on training the dropped parts of the model while freezing the undropped parts. As a result, the dropped parts learn in a way that encourages feature reuse, as the model relies on the undropped parts with feature reuse in mind. Overall, we demonstrated performance improvements in models with residual connections for image classification in certain cases.

arxiv情報

著者 Sejik Park
発行日 2024-11-14 14:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク