A Simple Framework for Open-Vocabulary Segmentation and Detection

要約

さまざまなセグメンテーションおよび検出データセットから共同で学習する、単純なオープン語彙のセグメンテーションおよび検出フレームワークである \ourmodel{} を紹介します。
語彙と注釈の粒度のギャップを埋めるために、まず事前にトレーニングされたテキスト エンコーダーを導入して、2 つのタスクですべての視覚的概念をエンコードし、それらの共通の意味空間を学習します。
これにより、セグメンテーション タスクのみで訓練された対応者と比較して、かなり良い結果が得られます。
$i$) タスクの不一致 — セグメンテーションでは前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要がありますが、検出では前者のみが考慮されます。
$ii$) データの不一致 — ボックスとマスクの注釈は空間的な粒度が異なるため、直接交換することはできません。
これらの問題に対処するために、前景/背景の間の干渉を減らすためのデカップリングされたデコーディングと、特定のボックスのマスクの生成を支援するための条件付きマスク デコーディングを提案します。
この目的のために、3 つの手法すべてを含む単純なエンコーダー/デコーダー モデルを開発し、COCO と Objects365 で共同でトレーニングします。
事前トレーニングの後、モデルはセグメンテーションと検出の両方で競争力のある、またはより強力なゼロショット転送可能性を示します。
具体的には、\ourmodel{} は、オープン語彙インスタンスと 5 つのデータセットにわたるパノプティック セグメンテーションの最先端の方法を打ち負かし、同様の設定での LVIS と ODinW でのオープン語彙検出の以前の作業よりも優れています。
特定のタスクに移行すると、私たちのモデルは、COCO と ADE20K でのパノプティック セグメンテーション、および ADE20K と Cityscapes でのインスタンス セグメンテーションの新しい SoTA を達成します。
最後に、\ourmodel{} は、セグメンテーションと検出に関する共同トレーニングの可能性を探った最初のモデルであり、オープン ワールドで両方のタスクの単一モデルを開発するための強力なベースラインとして受け入れられることを願っています。

要約(オリジナル)

We present \ourmodel{}, a simple Open-vocabulary Segmentation and Detection framework that jointly learns from different segmentation and detection datasets. To bridge the gap of vocabulary and annotation granularity, we first introduce a pre-trained text encoder to encode all the visual concepts in two tasks and learn a common semantic space for them. This gives us reasonably good results compared with the counterparts trained on segmentation task only. To further reconcile them, we locate two discrepancies: $i$) task discrepancy — segmentation requires extracting masks for both foreground objects and background stuff, while detection merely cares about the former; $ii$) data discrepancy — box and mask annotations are with different spatial granularity, and thus not directly interchangeable. To address these issues, we propose a decoupled decoding to reduce the interference between foreground/background and a conditioned mask decoding to assist in generating masks for given boxes. To this end, we develop a simple encoder-decoder model encompassing all three techniques and train it jointly on COCO and Objects365. After pre-training, our model exhibits competitive or stronger zero-shot transferability for both segmentation and detection. Specifically, \ourmodel{} beats the state-of-the-art method for open-vocabulary instance and panoptic segmentation across 5 datasets, and outperforms previous work for open-vocabulary detection on LVIS and ODinW under similar settings. When transferred to specific tasks, our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and instance segmentation on ADE20K and Cityscapes. Finally, we note that \ourmodel{} is the first to explore the potential of joint training on segmentation and detection, and hope it can be received as a strong baseline for developing a single model for both tasks in open world.

arxiv情報

著者 Hao Zhang,Feng Li,Xueyan Zou,Shilong Liu,Chunyuan Li,Jianfeng Gao,Jianwei Yang,Lei Zhang
発行日 2023-03-14 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク