DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive Segmentation Transformer

要約

タイトル:マルチオブジェクトインタラクティブセグメンテーショントランスフォーマー向けのダイナミッククエリブートストラップ

要約:
– 最先端のインスタンスセグメンテーション方法の多くは、高価であるピクセル単位の正確なアノテーションを作成する必要があるため、トレーニングに大量のアノテーションが必要となる。
– インタラクティブセグメンテーションネットワークは、画像と対応するユーザーのクリックなどの操作に基づいて、このようなアノテーションを生成するのに役立ちます。
– このタスクの既存の手法は、1つのインスタンスしか処理できず、各ユーザーの操作につき完全な順方向のディープネットワーク通過が必要である。
– DynaMITeと呼ばれるより効率的なアプローチが提案されており、ユーザーの操作を複数のオブジェクトインスタンスの一括イテレーションにセグメント化するため、トランスフォーマーデコーダーに空間時間クエリとして表現します。
– 当社のアーキテクチャは、改良中にイメージ機能を再計算する必要がなく、他の手法と比較して、シングルイメージで複数のインスタンスをセグメンテーションするためのより少ない操作を必要とします。
– DynaMITeは、複数の既存のインタラクティブセグメンテーションベンチマークや、本論文で提案した新しいマルチインスタンスベンチマークで最先端の結果を達成している。

要約(オリジナル)

Most state-of-the-art instance segmentation methods rely on large amounts of pixel-precise ground-truth annotations for training, which are expensive to create. Interactive segmentation networks help generate such annotations based on an image and the corresponding user interactions such as clicks. Existing methods for this task can only process a single instance at a time and each user interaction requires a full forward pass through the entire deep network. We introduce a more efficient approach, called DynaMITe, in which we represent user interactions as spatio-temporal queries to a Transformer decoder with a potential to segment multiple object instances in a single iteration. Our architecture also alleviates any need to re-compute image features during refinement, and requires fewer interactions for segmenting multiple instances in a single image when compared to other methods. DynaMITe achieves state-of-the-art results on multiple existing interactive segmentation benchmarks, and also on the new multi-instance benchmark that we propose in this paper.

arxiv情報

著者 Amit Kumar Rana,Sabarinath Mahadevan,Alexander Hermans,Bastian Leibe
発行日 2023-04-13 16:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク