要約
数ショットのセマンティックセグメンテーション(FSS)の研究は、ターゲットクラスのいくつかの注釈付きサポート画像のみを指定してクエリ画像内のターゲットオブジェクトをセグメント化することを目的として、大きな注目を集めています。
このやりがいのあるタスクの鍵は、クエリとサポートイメージ間のきめ細かい相関関係を利用して、サポートイメージの情報を十分に活用することです。
ただし、ほとんどの既存のアプローチは、サポート情報をいくつかのクラスごとのプロトタイプに圧縮するか、ピクセルレベルで部分的なサポート情報(たとえば、フォアグラウンドのみ)を使用して、無視できない情報の損失を引き起こしました。
この論文では、高密度ピクセルワイズクロスクエリアンドサポートアテンションウェイトマスクアグリゲーション(DCAMA)を提案します。ここでは、フォアグラウンドとバックグラウンドの両方のサポート情報が、ペアのクエリとサポート機能間のマルチレベルのピクセルワイズ相関を介して完全に活用されます。
Transformerアーキテクチャでスケーリングされたドット積の注意を払って実装された、DCAMAは、すべてのクエリピクセルをトークンとして扱い、すべてのサポートピクセルとの類似性を計算し、そのセグメンテーションラベルを、すべてのサポートピクセルのラベルの加法集計として予測します。
類似点。
DCAMAの独自の定式化に基づいて、すべてのサポート画像のピクセルがマスク集約のために一度に収集される、nショットセグメンテーションのための効率的かつ効果的なワンパス推論をさらに提案します。
実験によると、私たちのDCAMAは、PASCAL-5i、COCO-20i、およびFSS-1000の標準FSSベンチマークで最先端技術を大幅に進歩させています。
以前の最高の記録。
切除研究はまた、設計DCAMAを検証します。
要約(オリジナル)
Research into Few-shot Semantic Segmentation (FSS) has attracted great attention, with the goal to segment target objects in a query image given only a few annotated support images of the target class. A key to this challenging task is to fully utilize the information in the support images by exploiting fine-grained correlations between the query and support images. However, most existing approaches either compressed the support information into a few class-wise prototypes, or used partial support information (e.g., only foreground) at the pixel level, causing non-negligible information loss. In this paper, we propose Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation (DCAMA), where both foreground and background support information are fully exploited via multi-level pixel-wise correlations between paired query and support features. Implemented with the scaled dot-product attention in the Transformer architecture, DCAMA treats every query pixel as a token, computes its similarities with all support pixels, and predicts its segmentation label as an additive aggregation of all the support pixels’ labels — weighted by the similarities. Based on the unique formulation of DCAMA, we further propose efficient and effective one-pass inference for n-shot segmentation, where pixels of all support images are collected for the mask aggregation at once. Experiments show that our DCAMA significantly advances the state of the art on standard FSS benchmarks of PASCAL-5i, COCO-20i, and FSS-1000, e.g., with 3.1%, 9.7%, and 3.6% absolute improvements in 1-shot mIoU over previous best records. Ablative studies also verify the design DCAMA.
arxiv情報
著者 | Xinyu Shi,Dong Wei,Yu Zhang,Donghuan Lu,Munan Ning,Jiashun Chen,Kai Ma,Yefeng Zheng |
発行日 | 2022-07-18 12:12:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google