Mask-Free Video Instance Segmentation

要約

ビデオ インスタンス セグメンテーション (VIS) の最近の進歩は、主に、より深く、ますますデータを必要とするトランスフォーマー ベースのモデルの使用によって推進されてきました。
ただし、ビデオ マスクは面倒で注釈を付けるのに費用がかかるため、既存の VIS データセットの規模と多様性が制限されます。
この作業では、マスク アノテーションの要件を削除することを目指しています。
オブジェクトの状態にバウンディング ボックスの注釈のみを使用しながら、非常に競争力のある VIS パフォーマンスを実現する MaskFreeVIS を提案します。
時間的 KNN パッチ ロス (TK-Loss) を導入することで、ビデオの豊富な時間的マスク一貫性制約を活用し、ラベルなしで強力なマスク監視を提供します。
当社の TK-Loss は、効率的なパッチ マッチング手順とそれに続く K 最近傍選択によって、フレーム全体で 1 対多の一致を見つけます。
次に、見つかった一致に対して一貫性の喪失が適用されます。
私たちのマスクフリーの目的は、実装が簡単で、トレーニング可能なパラメーターがなく、計算効率が高く、たとえば最先端のオプティカル フローを使用して一時的なマスクの一貫性を強化するベースラインよりも優れています。
YouTube-VIS 2019/2021、OVIS、および BDD100K MOTS ベンチマークで MaskFreeVIS を検証します。
結果は、完全に監視された VIS パフォーマンスと弱く監視された VIS パフォーマンスの間のギャップを大幅に狭めることにより、この方法の有効性を明確に示しています。
コードとトレーニング済みモデルは、https://github.com/SysCV/MasFreeVis で入手できます。

要約(オリジナル)

The recent advancement in Video Instance Segmentation (VIS) has largely been driven by the use of deeper and increasingly data-hungry transformer-based models. However, video masks are tedious and expensive to annotate, limiting the scale and diversity of existing VIS datasets. In this work, we aim to remove the mask-annotation requirement. We propose MaskFreeVIS, achieving highly competitive VIS performance, while only using bounding box annotations for the object state. We leverage the rich temporal mask consistency constraints in videos by introducing the Temporal KNN-patch Loss (TK-Loss), providing strong mask supervision without any labels. Our TK-Loss finds one-to-many matches across frames, through an efficient patch-matching step followed by a K-nearest neighbor selection. A consistency loss is then enforced on the found matches. Our mask-free objective is simple to implement, has no trainable parameters, is computationally efficient, yet outperforms baselines employing, e.g., state-of-the-art optical flow to enforce temporal mask consistency. We validate MaskFreeVIS on the YouTube-VIS 2019/2021, OVIS and BDD100K MOTS benchmarks. The results clearly demonstrate the efficacy of our method by drastically narrowing the gap between fully and weakly-supervised VIS performance. Our code and trained models are available at https://github.com/SysCV/MaskFreeVis.

arxiv情報

著者 Lei Ke,Martin Danelljan,Henghui Ding,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu
発行日 2023-03-28 11:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク