Dynamic Y-KD: A Hybrid Approach to Continual Instance Segmentation

要約

インスタンスのセグメンテーションにおける深層学習手法の成功にもかかわらず、これらのモデルは、継続的な学習シナリオで壊滅的な忘却に悩まされています。
この論文では、継続的なインスタンス セグメンテーションに対する私たちの貢献は 3 つあります。
まず、教師と生徒のネットワーク間で共通の特徴抽出器を共有する知識蒸留戦略である Y 知識蒸留 (Y-KD) を提案します。
教師も Y-KD の新しいデータで更新されるため、可塑性の増加により、新しいクラスに特化した新しいモジュールが作成されます。
次に、Y-KD アプローチは、タスクごとに新しいモジュールを成長させ、それらすべてを一意のインスタンス セグメンテーション ヘッドによる推論に使用する動的アーキテクチャ メソッドによってサポートされます。これにより、忘却が大幅に減少します。
3 番目に、さまざまなクラス セットのパフォーマンス間のトレードオフを手動で調整する簡単な方法としてチェックポイント平均化を活用することでアプローチを完成させ、追加コストなしでモデルの動作の制御を強化します。
これらの貢献は、ダイナミック Y-KD ネットワークと名付けたモデルに統合されています。
Pascal-VOC でいくつかの単一ステップおよび複数ステップのシナリオで広範な実験を行い、過去と新しいクラスの両方で、私たちのアプローチが以前の方法よりも優れていることを示します。
たとえば、最近の研究と比較すると、15-1 では古いクラスで +2.1% の mAP、19-1 では新しいクラスで +7.6% の mAP を取得し、すべてのクラスで共同トレーニングによって得られた mAP の 91.5% に達します。
15-5.

要約(オリジナル)

Despite the success of deep learning methods on instance segmentation, these models still suffer from catastrophic forgetting in continual learning scenarios. In this paper, our contributions for continual instance segmentation are threefold. First, we propose the Y-knowledge distillation (Y-KD), a knowledge distillation strategy that shares a common feature extractor between the teacher and student networks. As the teacher is also updated with new data in Y-KD, the increased plasticity results in new modules that are specialized on new classes. Second, our Y-KD approach is supported by a dynamic architecture method that grows new modules for each task and uses all of them for inference with a unique instance segmentation head, which significantly reduces forgetting. Third, we complete our approach by leveraging checkpoint averaging as a simple method to manually balance the trade-off between the performance on the various sets of classes, thus increasing the control over the model’s behavior without any additional cost. These contributions are united in our model that we name the Dynamic Y-KD network. We perform extensive experiments on several single-step and multi-steps scenarios on Pascal-VOC, and we show that our approach outperforms previous methods both on past and new classes. For instance, compared to recent work, our method obtains +2.1% mAP on old classes in 15-1, +7.6% mAP on new classes in 19-1 and reaches 91.5% of the mAP obtained by joint-training on all classes in 15-5.

arxiv情報

著者 Mathieu Pagé-Fortin,Brahim Chaib-draa
発行日 2023-03-13 00:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク