要約
最近まで、ビデオ インスタンス セグメンテーション (VIS) コミュニティは、一般的にオフライン方法がフレームごとのオンライン処理よりも優れているという共通の信念に基づいて運営されていました。
しかし、オンライン手法の最近の成功は、特に挑戦的で長いビデオ シーケンスについては、この考えに疑問を投げかけます。
私たちは、この研究がこれらの最近の観察に対する反論であり、専用の準オンライン VIS アプローチに焦点を当てるようコミュニティに訴えているものであると理解しています。
私たちの議論を裏付けるために、さまざまな処理パラダイムと新しいエンドツーエンドのトレーニング可能な NOVIS (ニアオンライン ビデオ インスタンス セグメンテーション) メソッドに関する詳細な分析を紹介します。
私たちのトランスフォーマーベースのモデルは、フレームのクリップの時空間マスク ボリュームを直接予測し、オーバーラップ エンベディングを介してクリップ間のインスタンス トラッキングを実行します。
NOVIS は、手作りの追跡ヒューリスティックを回避する、初のほぼオンラインの VIS アプローチです。
当社は既存のすべての VIS 手法を大幅に上回り、YouTube-VIS (2019/2021) と OVIS ベンチマークの両方で新しい最先端の結果を提供します。
要約(オリジナル)
Until recently, the Video Instance Segmentation (VIS) community operated under the common belief that offline methods are generally superior to a frame by frame online processing. However, the recent success of online methods questions this belief, in particular, for challenging and long video sequences. We understand this work as a rebuttal of those recent observations and an appeal to the community to focus on dedicated near-online VIS approaches. To support our argument, we present a detailed analysis on different processing paradigms and the new end-to-end trainable NOVIS (Near-Online Video Instance Segmentation) method. Our transformer-based model directly predicts spatio-temporal mask volumes for clips of frames and performs instance tracking between clips via overlap embeddings. NOVIS represents the first near-online VIS approach which avoids any handcrafted tracking heuristics. We outperform all existing VIS methods by large margins and provide new state-of-the-art results on both YouTube-VIS (2019/2021) and the OVIS benchmarks.
arxiv情報
著者 | Tim Meinhardt,Matt Feiszli,Yuchen Fan,Laura Leal-Taixe,Rakesh Ranjan |
発行日 | 2023-09-18 14:46:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google