要約
ビデオインスタンスセグメンテーション(VIS)において、検出と追跡のための時間情報を統一的なフレームワークでモデル化することは、有望な解決策であることが証明されている。しかし、時間情報をどのように効果的にオンラインモデルに組み込むかは、未解決の問題である。本研究では、検出と追跡のために時間情報を効率的にモデル化する、Instance As Identity (IAI) と呼ばれる新しいオンラインVISのパラダイムを提案する。IAIでは、インスタンスを追跡するための識別番号を明示的に予測する新しい識別モジュールを採用する。また、フレーム間の時間情報の受け渡しのために、IAIは現在の特徴量と過去の埋め込みを組み合わせる関連付けモジュールを利用する。また、IAIは異なる画像モデルとの統合が可能である。我々は、3つのVISベンチマークを用いた広範な実験を行った。IAIはYouTube-VIS-2019 (ResNet-101 41.9 mAP)とYouTube-VIS-2021 (ResNet-50 37.7 mAP)において、すべてのオンライン競合を上回る性能を示した。また、より難易度の高いOVISでは、IAIはSOTA性能(20.3mAP)を達成しました。コードは https://github.com/zfonemore/IAI で公開されています。
要約(オリジナル)
Modeling temporal information for both detection and tracking in a unified framework has been proved a promising solution to video instance segmentation (VIS). However, how to effectively incorporate the temporal information into an online model remains an open problem. In this work, we propose a new online VIS paradigm named Instance As Identity (IAI), which models temporal information for both detection and tracking in an efficient way. In detail, IAI employs a novel identification module to predict identification number for tracking instances explicitly. For passing temporal information cross frame, IAI utilizes an association module which combines current features and past embeddings. Notably, IAI can be integrated with different image models. We conduct extensive experiments on three VIS benchmarks. IAI outperforms all the online competitors on YouTube-VIS-2019 (ResNet-101 41.9 mAP) and YouTube-VIS-2021 (ResNet-50 37.7 mAP). Surprisingly, on the more challenging OVIS, IAI achieves SOTA performance (20.3 mAP). Code is available at https://github.com/zfonemore/IAI
arxiv情報
| 著者 | Feng Zhu,Zongxin Yang,Xin Yu,Yi Yang,Yunchao Wei |
| 発行日 | 2022-08-05 10:29:30+00:00 |
| arxivサイト | arxiv_id(pdf) |