Effects of Architectures on Continual Semantic Segmentation

要約

継続的セマンティック セグメンテーションの分野の研究では、主に、ニューラル ネットワークの壊滅的な忘却を克服するための新しい学習アルゴリズムを調査しています。
最近の出版物は、ニューラル アーキテクチャの選択によって引き起こされる影響を区別することなく、学習アルゴリズムの改善に焦点を当てています。したがって、ニューラル ネットワーク アーキテクチャの選択が、クラスおよびドメインの増分セマンティック セグメンテーションにおける壊滅的な忘却にどのように影響するかを研究しています。
具体的には、よく研究された CNN を、最近提案されたトランスフォーマーおよびハイブリッド アーキテクチャと比較し、新しい正規化レイヤーとさまざまなデコーダー ヘッドの選択の影響を比較します。
ResNet のような従来の CNN は高い可塑性を備えていますが、安定性は低く、一方、Transformer アーキテクチャははるかに安定しています。
CNN アーキテクチャの誘導性バイアスをハイブリッド アーキテクチャのトランスと組み合わせると、可塑性と安定性が向上します。
これらのモデルの安定性は、分布の変化に対してロバストな一般的な特徴を学習する能力によって説明できます。
さまざまな正規化レイヤーを使用した実験では、連続正規化がモデルの適応性と安定性の点で最良のトレードオフを達成することが示されています。
クラス増分設定では、正規化レイヤーの選択による影響ははるかに少なくなります。
私たちの実験は、アーキテクチャを正しく選択することで、単純な微調整を行っても忘却を大幅に減らすことができることを示唆しており、実際のアプリケーションでは、継続的な学習モデルを設計する上でアーキテクチャが重要な要素であることを確認しています。

要約(オリジナル)

Research in the field of Continual Semantic Segmentation is mainly investigating novel learning algorithms to overcome catastrophic forgetting of neural networks. Most recent publications have focused on improving learning algorithms without distinguishing effects caused by the choice of neural architecture.Therefore, we study how the choice of neural network architecture affects catastrophic forgetting in class- and domain-incremental semantic segmentation. Specifically, we compare the well-researched CNNs to recently proposed Transformers and Hybrid architectures, as well as the impact of the choice of novel normalization layers and different decoder heads. We find that traditional CNNs like ResNet have high plasticity but low stability, while transformer architectures are much more stable. When the inductive biases of CNN architectures are combined with transformers in hybrid architectures, it leads to higher plasticity and stability. The stability of these models can be explained by their ability to learn general features that are robust against distribution shifts. Experiments with different normalization layers show that Continual Normalization achieves the best trade-off in terms of adaptability and stability of the model. In the class-incremental setting, the choice of the normalization layer has much less impact. Our experiments suggest that the right choice of architecture can significantly reduce forgetting even with naive fine-tuning and confirm that for real-world applications, the architecture is an important factor in designing a continual learning model.

arxiv情報

著者 Tobias Kalb,Niket Ahuja,Jingxing Zhou,Jürgen Beyerer
発行日 2023-02-21 15:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク