要約
最先端のインスタンス セグメンテーション手法のほとんどは、トレーニングのために大量のピクセル精度のグラウンドトゥルース アノテーションに依存しており、作成にコストがかかります。
インタラクティブなセグメンテーション ネットワークは、画像やクリックなどの対応するユーザー インタラクションに基づいてこのような注釈を生成するのに役立ちます。
このタスクの既存のメソッドは、一度に 1 つのインスタンスしか処理できず、各ユーザー操作にはディープ ネットワーク全体を通過する完全な転送パスが必要です。
DynaMITe と呼ばれるより効率的なアプローチを導入します。このアプローチでは、ユーザー インタラクションを Transformer デコーダーへの時空間クエリとして表現し、1 回の反復で複数のオブジェクト インスタンスをセグメント化する可能性があります。
また、私たちのアーキテクチャは、リファイン中に画像の特徴を再計算する必要性を軽減し、他の方法と比較して、単一の画像内の複数のインスタンスをセグメント化するために必要な操作が少なくなります。
DynaMITe は、複数の既存のインタラクティブ セグメンテーション ベンチマークだけでなく、このホワイトペーパーで提案する新しいマルチインスタンス ベンチマークでも最先端の結果を達成しています。
要約(オリジナル)
Most state-of-the-art instance segmentation methods rely on large amounts of pixel-precise ground-truth annotations for training, which are expensive to create. Interactive segmentation networks help generate such annotations based on an image and the corresponding user interactions such as clicks. Existing methods for this task can only process a single instance at a time and each user interaction requires a full forward pass through the entire deep network. We introduce a more efficient approach, called DynaMITe, in which we represent user interactions as spatio-temporal queries to a Transformer decoder with a potential to segment multiple object instances in a single iteration. Our architecture also alleviates any need to re-compute image features during refinement, and requires fewer interactions for segmenting multiple instances in a single image when compared to other methods. DynaMITe achieves state-of-the-art results on multiple existing interactive segmentation benchmarks, and also on the new multi-instance benchmark that we propose in this paper.
arxiv情報
著者 | Amit Kumar Rana,Sabarinath Mahadevan,Alexander Hermans,Bastian Leibe |
発行日 | 2023-08-22 12:53:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google