要約
我々は、明示的なオブジェクト指向の情報がシーケンス全体の文脈を理解するための強力な手がかりとなり得るという仮説に基づき、オフラインでのビデオインスタンスセグメンテーション(VIS)のための新しいパラダイムを導入する。この目的のために、我々はVITAを提案する。VITAは、既製のTransformerベースの画像インスタンス分割モデルの上に構築されたシンプルな構造である。具体的には、オブジェクト特有のコンテキストをオブジェクトトークンに抽出する手段として、画像オブジェクト検出器を使用する。VITAは、時空間的な特徴を用いずにフレームレベルのオブジェクトトークンを関連付けることにより、ビデオレベルの理解を実現する。VITAは、凝縮された情報を用いてオブジェクト間の関係を効果的に構築することにより、ResNet-50をバックボーンとするVISベンチマークで最先端を達成した。49.8AP、YouTube-VIS 2019 & 2021で45.7AP、OVISで19.6APを達成しました。さらに、VITAは、バックボーン特徴から切り離されたオブジェクトトークンベースの構造により、一般的なGPUで長時間・高解像度の動画を処理し、画像ドメインで学習したフレームレベルの検出器を凍結するなど、これまでのオフラインVIS手法が追求してこなかったいくつかの実用的な利点を示しています。コードは、https://github.com/sukjunhwang/VITA で公開される予定です。
要約(オリジナル)
We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021 and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored – handling long and high-resolution videos with a common GPU and freezing a frame-level detector trained on image domain. Code will be made available at https://github.com/sukjunhwang/VITA.
arxiv情報
著者 | Miran Heo,Sukjun Hwang,Seoung Wug Oh,Joon-Young Lee,Seon Joo Kim |
発行日 | 2022-06-09 10:33:18+00:00 |
arxivサイト | arxiv_id(pdf) |