要約
フューショット学習は、少数のサンプルから学習した事前知識を活用して、新しい概念を認識することを目的としています。
ただし、数ショットのセマンティック セグメンテーションなどの視覚的に集中的なタスクの場合、ピクセル レベルの注釈は時間とコストがかかります。
したがって、この論文では、より困難な画像レベルのアノテーションを利用し、弱く監視された少数ショット セマンティック セグメンテーション (WFSS) 用の適応型周波数認識ネットワーク (AFANet) を提案します。
具体的には、まず、RGB 画像を高周波分布と低周波分布に分離し、それらを再調整することで意味構造情報をさらに最適化する、粒度間周波数認識モジュール (CFM) を提案します。
マルチモーダル言語視覚モデル、たとえば CLIP からのテキスト情報をオフライン学習方式で使用する既存のほとんどの WFSS 手法とは異なり、空間ドメイン適応変換を実行する CLIP ガイド付き空間アダプター モジュール (CSM) をさらに提案します。
オンライン学習を通じてテキスト情報を学習し、CFM に充実したクロスモーダルな意味情報を提供します。
Pascal-5\textsuperscript{i} および COCO-20\textsuperscript{i} データセットに対する広範な実験により、AFANet が最先端のパフォーマンスを達成していることが実証されました。
コードは https://github.com/jarch-ma/AFANet で入手できます。
要約(オリジナル)
Few-shot learning aims to recognize novel concepts by leveraging prior knowledge learned from a few samples. However, for visually intensive tasks such as few-shot semantic segmentation, pixel-level annotations are time-consuming and costly. Therefore, in this paper, we utilize the more challenging image-level annotations and propose an adaptive frequency-aware network (AFANet) for weakly-supervised few-shot semantic segmentation (WFSS). Specifically, we first propose a cross-granularity frequency-aware module (CFM) that decouples RGB images into high-frequency and low-frequency distributions and further optimizes semantic structural information by realigning them. Unlike most existing WFSS methods using the textual information from the multi-modal language-vision model, e.g., CLIP, in an offline learning manner, we further propose a CLIP-guided spatial-adapter module (CSM), which performs spatial domain adaptive transformation on textual information through online learning, thus providing enriched cross-modal semantic information for CFM. Extensive experiments on the Pascal-5\textsuperscript{i} and COCO-20\textsuperscript{i} datasets demonstrate that AFANet has achieved state-of-the-art performance. The code is available at https://github.com/jarch-ma/AFANet.
arxiv情報
著者 | Jiaqi Ma,Guo-Sen Xie,Fang Zhao,Zechao Li |
発行日 | 2024-12-23 14:20:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google