Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update and Hyper-class Representation

要約

インクリメンタル数ショットセマンティックセグメンテーション(IFSS)は、モデルの容量を段階的に拡張して、わずかなサンプルで監視される新しいクラスの画像をセグメント化することを目的としています。
ただし、古いクラスで学習した機能は大幅にドリフトし、壊滅的な忘却を引き起こす可能性があります。
さらに、新しいクラスでのピクセルレベルのセグメンテーションのサンプルが少ないため、各学習セッションで悪名高い過剰適合の問題が発生します。
この論文では、セマンティックセグメンテーションのクラスベースの知識をカテゴリ埋め込みとハイパークラス埋め込みとして明示的に表します。前者は排他的なセマンティックプロパティを記述し、後者はハイパークラス知識をクラス共有セマンティックプロパティとして表現します。
IFSSの問題を解決することを目的として、EHNet、つまり、適応更新とハイパークラス表現ネットワークの埋め込みを2つの側面から提示します。
まず、ハイパークラス表現によって古い知識を維持する機能ドリフトを回避するための埋め込み適応更新戦略を提案し、個々のセッションで学習した新しいクラスを含むようにクラス注意スキームでカテゴリ埋め込みを適応的に更新します。
第二に、少数のトレーニングサンプルによって引き起こされる過適合の問題に抵抗するために、ハイパークラスの埋め込みは、初期化のためにすべてのカテゴリの埋め込みをクラスタリングし、強化のために新しいクラスのカテゴリの埋め込みと整合させることによって学習されます。学習した知識は新しい知識の学習を支援し、パフォーマンスを向上させます。
トレーニングデータスケールへの依存。
重要なことに、これら2つの設計は、十分なセマンティクスと制限されたバイアスを備えたクラスの表現機能を提供し、高いセマンティック依存性を必要とするセグメンテーションタスクを実行できるようにします。
PASCAL-5iおよびCOCOデータセットでの実験は、EHNetが驚くべき利点を備えた新しい最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Incremental few-shot semantic segmentation (IFSS) targets at incrementally expanding model’s capacity to segment new class of images supervised by only a few samples. However, features learned on old classes could significantly drift, causing catastrophic forgetting. Moreover, few samples for pixel-level segmentation on new classes lead to notorious overfitting issues in each learning session. In this paper, we explicitly represent class-based knowledge for semantic segmentation as a category embedding and a hyper-class embedding, where the former describes exclusive semantical properties, and the latter expresses hyper-class knowledge as class-shared semantic properties. Aiming to solve IFSS problems, we present EHNet, i.e., Embedding adaptive-update and Hyper-class representation Network from two aspects. First, we propose an embedding adaptive-update strategy to avoid feature drift, which maintains old knowledge by hyper-class representation, and adaptively update category embeddings with a class-attention scheme to involve new classes learned in individual sessions. Second, to resist overfitting issues caused by few training samples, a hyper-class embedding is learned by clustering all category embeddings for initialization and aligned with category embedding of the new class for enhancement, where learned knowledge assists to learn new knowledge, thus alleviating performance dependence on training data scale. Significantly, these two designs provide representation capability for classes with sufficient semantics and limited biases, enabling to perform segmentation tasks requiring high semantic dependence. Experiments on PASCAL-5i and COCO datasets show that EHNet achieves new state-of-the-art performance with remarkable advantages.

arxiv情報

著者 Guangchen Shi,Yirui Wu,Jun Liu,Shaohua Wan,Wenhai Wang,Tong Lu
発行日 2022-07-26 15:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク