Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation

要約

近年、変換器を用いた画像セグメンテーション手法は、従来の解決策に対して注目すべき成功を収めている。一方、ビデオドメインについては、フレーム間のオブジェクトインスタンスに注目した時間的コンテキストをいかに効果的にモデル化するかは未解決の問題のままである。本論文では、インスタンスに注目した新しい時間的融合法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。我々はまず、表現、すなわち、グローバルコンテキストにおける潜在的なコード(インスタンスコード)とCNN特徴マップを活用し、インスタンスレベルとピクセルレベルの特徴を表現する。この表現に基づき、ビデオフレーム間の時間的整合性をモデル化するために、クロッピングフリーの時間的融合アプローチを導入する。具体的には、インスタンスコードにグローバルなインスタンス固有の情報をエンコードし、インスタンスコードとCNN特徴マップの間のハイブリッドな注意でフレーム間コンテキストフュージョンを構築する。インスタンスコード間のフレーム間整合性は、さらに順序制約で強制される。学習されたハイブリッドな時間的整合性を活用することで、フレーム間でインスタンスの同一性を直接取得・維持することができ、先行手法におけるフレーム単位の複雑なインスタンス照合を排除している。Youtube-VIS-19/21などの有名なVISデータセットに対して広範な実験が行われた。その結果、我々のモデルは全てのオンラインVIS手法の中で最も高い性能を達成した。また、ResNet-50を用いた場合、オフラインの手法を凌駕する性能を示した。

要約(オリジナル)

Recently, transformer-based image segmentation methods have achieved notable success against previous solutions. While for video domains, how to effectively model temporal context with the attention of object instances across frames remains an open problem. In this paper, we propose an online video instance segmentation framework with a novel instance-aware temporal fusion method. We first leverages the representation, i.e., a latent code in the global context (instance code) and CNN feature maps to represent instance- and pixel-level features. Based on this representation, we introduce a cropping-free temporal fusion approach to model the temporal consistency between video frames. Specifically, we encode global instance-specific information in the instance code and build up inter-frame contextual fusion with hybrid attentions between the instance codes and CNN feature maps. Inter-frame consistency between the instance codes are further enforced with order constraints. By leveraging the learned hybrid temporal consistency, we are able to directly retrieve and maintain instance identities across frames, eliminating the complicated frame-wise instance matching in prior methods. Extensive experiments have been conducted on popular VIS datasets, i.e. Youtube-VIS-19/21. Our model achieves the best performance among all online VIS methods. Notably, our model also eclipses all offline methods when using the ResNet-50 backbone.

arxiv情報

著者 Xiang Li,Jinglu Wang,Xiao Li,Yan Lu
発行日 2022-06-06 18:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク