In Defense of Online Models for Video Instance Segmentation

要約

近年、ビデオインスタンスセグメンテーション(VIS)はオフラインモデルによって大幅に進歩していますが、オンラインモデルは、パフォーマンスが低いためか、徐々に注目を集めていません。
ただし、オンライン方式には、長いビデオシーケンスや進行中のビデオを処理するという固有の利点がありますが、オフラインモデルは、計算リソースの制限のために失敗します。
したがって、オンラインモデルがオフラインモデルと同等またはそれ以上のパフォーマンスを達成できることが非常に望ましいでしょう。
現在のオンラインモデルとオフラインモデルを分析することにより、パフォーマンスギャップの主な原因が、機能空間内の異なるインスタンス間での類似した外観によって引き起こされるフレーム間のエラーが発生しやすい関連付けであることを示します。
これを観察して、関連付けのためのより識別力のあるインスタンス埋め込みを学習し、安定性のために履歴情報を完全に活用できる、対照的な学習に基づくオンラインフレームワークを提案します。
その単純さにもかかわらず、私たちの方法は、3つのベンチマークですべてのオンラインおよびオフラインの方法よりも優れています。
具体的には、YouTube-VIS2019で49.5APを達成しました。これは、以前のオンラインアートとオフラインアートに比べて、それぞれ13.2APと2.1APの大幅な改善です。
さらに、OVISで30.2 APを達成します。これは、かなりの混雑とオクルージョンを伴うより困難なデータセットであり、従来技術を14.8AP上回っています。
提案された方法は、第4回大規模ビデオオブジェクトセグメンテーションチャレンジ(CVPR2022)のビデオインスタンスセグメンテーショントラックで1位を獲得しました。
私たちの方法の単純さと有効性、および現在の方法への洞察が、VISモデルの調査に光を当てることができることを願っています。

要約(オリジナル)

In recent years, video instance segmentation (VIS) has been largely advanced by offline models, while online models gradually attracted less attention possibly due to their inferior performance. However, online methods have their inherent advantage in handling long video sequences and ongoing videos while offline models fail due to the limit of computational resources. Therefore, it would be highly desirable if online models can achieve comparable or even better performance than offline models. By dissecting current online models and offline models, we demonstrate that the main cause of the performance gap is the error-prone association between frames caused by the similar appearance among different instances in the feature space. Observing this, we propose an online framework based on contrastive learning that is able to learn more discriminative instance embeddings for association and fully exploit history information for stability. Despite its simplicity, our method outperforms all online and offline methods on three benchmarks. Specifically, we achieve 49.5 AP on YouTube-VIS 2019, a significant improvement of 13.2 AP and 2.1 AP over the prior online and offline art, respectively. Moreover, we achieve 30.2 AP on OVIS, a more challenging dataset with significant crowding and occlusions, surpassing the prior art by 14.8 AP. The proposed method won first place in the video instance segmentation track of the 4th Large-scale Video Object Segmentation Challenge (CVPR2022). We hope the simplicity and effectiveness of our method, as well as our insight into current methods, could shed light on the exploration of VIS models.

arxiv情報

著者 Junfeng Wu,Qihao Liu,Yi Jiang,Song Bai,Alan Yuille,Xiang Bai
発行日 2022-07-21 17:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク