要約
インスタンス分割は、インスタンスを意識した埋め込みを用いた画像特徴量に対するクエリにより、インスタンスマスクを導出するクエリベース方式が一般的である。本研究では、識別的なクエリ埋め込み学習により、クエリベースモデルを強化する新しい学習フレームワークを考案する。これは、クエリとインスタンス間の関係において、データセットレベルの一意性と変換の等変性という2つの本質的な特性を探求するものである。まず、本アルゴリズムでは、個々のシーン内のみを検索するのではなく、クエリを用いて学習データセット全体から対応するインスタンスを検索する。このため、セグメンテーションツールは効果的なインスタンス分離のために、より識別性の高いクエリを学習することを余儀なくされる。第二に、我々のアルゴリズムは、画像(インスタンス)表現とクエリの両方が幾何学的変換に対して等変であることを推奨し、より頑健なインスタンス-クエリ照合を実現するものである。COCOデータセットにおいて、4つの有名なクエリベースモデル($ CondInst, SOLOv2, SOTR, Mask2Former)の上に、我々の学習アルゴリズムにより、$ +1.6 – 3.2 APという大きな性能向上が達成された。また、LVISv1データセットでは、SOLOv2の性能を2.7AP向上させることができた。
要約(オリジナル)
Prevalent state-of-the-art instance segmentation methods fall into a query-based scheme, in which instance masks are derived by querying the image feature using a set of instance-aware embeddings. In this work, we devise a new training framework that boosts query-based models through discriminative query embedding learning. It explores two essential properties, namely dataset-level uniqueness and transformation equivariance, of the relation between queries and instances. First, our algorithm uses the queries to retrieve the corresponding instances from the whole training dataset, instead of only searching within individual scenes. As querying instances across scenes is more challenging, the segmenters are forced to learn more discriminative queries for effective instance separation. Second, our algorithm encourages both image (instance) representations and queries to be equivariant against geometric transformations, leading to more robust, instance-query matching. On top of four famous, query-based models ($i.e.,$ CondInst, SOLOv2, SOTR, and Mask2Former), our training algorithm provides significant performance gains ($e.g.,$ +1.6 – 3.2 AP) on COCO dataset. In addition, our algorithm promotes the performance of SOLOv2 by 2.7 AP, on LVISv1 dataset.
arxiv情報
著者 | Wenguan Wang,James Liang,Dongfang Liu |
発行日 | 2022-10-03 13:14:00+00:00 |
arxivサイト | arxiv_id(pdf) |