Video Mask Transfiner for High-Quality Video Instance Segmentation

要約

ビデオインスタンスセグメンテーション(VIS)は急速に進歩していますが、現在のアプローチでは、正確な境界の詳細を使用して高品質のマスクを予測するのに苦労しています。
さらに、予測されるセグメンテーションは時間の経過とともに変動することが多く、時間的な一貫性の手がかりが無視されているか、十分に活用されていないことを示唆しています。
この論文では、VISの非常に詳細で時間的に安定したマスク予測を実現することを目的として、これらの問題に取り組むことに着手しました。
まず、高効率のビデオトランス構造により、きめ細かい高解像度機能を活用できるビデオマスクトランスファイナ(VMT)方式を提案します。
私たちのVMTは、ビデオセグメント内の各トラックレットのまばらなエラーが発生しやすい時空間領域を検出してグループ化し、ローカルとインスタンスレベルの両方のキューを使用して洗練されます。
次に、人気のあるYouTube-VISデータセットの粗い境界アノテーションが主要な制限要因を構成していることを確認します。
したがって、VMTアーキテクチャに基づいて、反復トレーニングと自己修正による自動注釈改良アプローチを設計します。
VISの高品質マスク予測をベンチマークするために、手動で再注釈付けされたテストセットと自動的に改良されたトレーニングデータで構成されるHQ-YTVISデータセットを導入します。
VMTを、HQ-YTVISの最新の方法、およびYoutube-VIS、OVIS、BDD100KMOTSベンチマークと比較します。
実験結果は、正確な詳細をキャプチャすることにより、複雑で動的なオブジェクトのセグメント化に対する私たちの方法の有効性と有効性を明確に示しています。

要約(オリジナル)

While Video Instance Segmentation (VIS) has seen rapid progress, current approaches struggle to predict high-quality masks with accurate boundary details. Moreover, the predicted segmentations often fluctuate over time, suggesting that temporal consistency cues are neglected or not fully utilized. In this paper, we set out to tackle these issues, with the aim of achieving highly detailed and more temporally stable mask predictions for VIS. We first propose the Video Mask Transfiner (VMT) method, capable of leveraging fine-grained high-resolution features thanks to a highly efficient video transformer structure. Our VMT detects and groups sparse error-prone spatio-temporal regions of each tracklet in the video segment, which are then refined using both local and instance-level cues. Second, we identify that the coarse boundary annotations of the popular YouTube-VIS dataset constitute a major limiting factor. Based on our VMT architecture, we therefore design an automated annotation refinement approach by iterative training and self-correction. To benchmark high-quality mask predictions for VIS, we introduce the HQ-YTVIS dataset, consisting of a manually re-annotated test set and our automatically refined training data. We compare VMT with the most recent state-of-the-art methods on the HQ-YTVIS, as well as the Youtube-VIS, OVIS and BDD100K MOTS benchmarks. Experimental results clearly demonstrate the efficacy and effectiveness of our method on segmenting complex and dynamic objects, by capturing precise details.

arxiv情報

著者 Lei Ke,Henghui Ding,Martin Danelljan,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu
発行日 2022-07-28 11:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク