Exploring Transformers for Open-world Instance Segmentation

要約

オープンワールド インスタンスのセグメンテーションは、注目されているタスクであり、限られた数の基本カテゴリ オブジェクトから学習することで、画像内のすべてのオブジェクトをセグメント化することを目的としています。
目に見えないカテゴリの数は、目に見えるカテゴリの数百倍になる可能性があるため、この作業は困難です。
最近、DETR のようなモデルは、閉じた世界では広く研究されていますが、開いた世界では未調査のままです。
このペーパーでは、オープンワールドのインスタンスのセグメンテーションに Transformer を利用し、SWORD を紹介します。
まず、分類ヘッドの前に停止勾配演算を追加し、さらに新しいオブジェクトを発見するための IoU ヘッドを追加します。
単純な勾配停止操作により、新しいオブジェクトが背景として抑制されるのを防ぐだけでなく、ネットワークがヒューリスティックなラベル割り当てのメリットを享受できることを示します。
第二に、オブジェクトと背景の間の表現を拡大するための新しい対比学習フレームワークを提案します。
具体的には、オブジェクトの中心を取得するためにユニバーサル オブジェクト キューを維持し、対照学習のためにオブジェクト クエリから正と負のサンプルを動的に選択します。
これまでの作品は平均再現率の追求のみに重点を置き、平均精度を無視していましたが、SWORD は両方の基準を考慮することで卓越性を示しています。
私たちのモデルは、さまざまなオープンワールドのクロスカテゴリーおよびクロスデータセットの一般化において最先端のパフォーマンスを実現します。
特に、VOC から非 VOC への設定では、私たちの方法は ARb100 で 40.0%、ARm100 で 34.9% という新しい最先端の結果を達成しました。
COCO から UVO への一般化では、SWORD は以前の最高のオープンワールド モデルを APm で 5.9%、ARm100 で 8.1% 大幅に上回りました。

要約(オリジナル)

Open-world instance segmentation is a rising task, which aims to segment all objects in the image by learning from a limited number of base-category objects. This task is challenging, as the number of unseen categories could be hundreds of times larger than that of seen categories. Recently, the DETR-like models have been extensively studied in the closed world while stay unexplored in the open world. In this paper, we utilize the Transformer for open-world instance segmentation and present SWORD. Firstly, we introduce to attach the stop-gradient operation before classification head and further add IoU heads for discovering novel objects. We demonstrate that a simple stop-gradient operation not only prevents the novel objects from being suppressed as background, but also allows the network to enjoy the merit of heuristic label assignment. Secondly, we propose a novel contrastive learning framework to enlarge the representations between objects and background. Specifically, we maintain a universal object queue to obtain the object center, and dynamically select positive and negative samples from the object queries for contrastive learning. While the previous works only focus on pursuing average recall and neglect average precision, we show the prominence of SWORD by giving consideration to both criteria. Our models achieve state-of-the-art performance in various open-world cross-category and cross-dataset generalizations. Particularly, in VOC to non-VOC setup, our method sets new state-of-the-art results of 40.0% on ARb100 and 34.9% on ARm100. For COCO to UVO generalization, SWORD significantly outperforms the previous best open-world model by 5.9% on APm and 8.1% on ARm100.

arxiv情報

著者 Jiannan Wu,Yi Jiang,Bin Yan,Huchuan Lu,Zehuan Yuan,Ping Luo
発行日 2023-08-08 12:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク