要約
FSIS(Few Shot Instance Segmentation)は、限られた数のサポート例から新規クラスを検出し、セグメント化するモデルを必要とする。本研究では、FSISのためのシンプルかつ統一的なソリューションと、そのインクリメンタル・バリアントを探求し、Transformerのようなフレームワークに基づいたサポート/クエリ特徴の間の関係を完全に探求するRefT(Reference Twice)と名付けられた新しいフレームワークを導入する。その結果、2つの重要な知見を得ることができました。まず、サポートマスクを用いることで、動的なクラスセンターをより適切に生成し、クエリ機能を再重量化することができる。第二に、サポートオブジェクトのクエリは、ベーストレーニングの後、既に重要な要素を符号化していることが分かった。このように、特徴量レベルとインスタンスレベルの2つの側面からクエリ特徴量を強化することができる。特に、我々はまず、マスクベースの動的重み付けモジュールを設計し、サポート機能を強化し、次に、オブジェクトクエリをリンクさせ、クロスアテンションによってより良いキャリブレーションを行うことを提案する。上記のステップの後、新規クラスは我々の強力なベースラインよりも大幅に改善される。さらに、我々の新しいフレームワークは、わずかな修正で容易にインクリメンタルFSISに拡張することができる。COCOデータセットのFSIS、gFSIS、iFSISのベンチマークを行った結果、我々の手法は、異なるショットにおいて、既存の手法と比較して競争力のある性能を達成した。例えば、10/30ショットにおいて、現在の最先端のFSIS手法よりもnAPを顕著に+8.2/+9.4増加させた。さらに、Few Shot Object Detectionにおいて、本アプローチの優位性を実証する。コードとモデルを公開する予定です。
要約(オリジナル)
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
arxiv情報
著者 | Yue Han,Jiangning Zhang,Zhucun Xue,Chao Xu,Xintian Shen,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li |
発行日 | 2023-01-03 15:33:48+00:00 |
arxivサイト | arxiv_id(pdf) |