要約
既存のマッチングベースアプローチは、ピクセルレベルのメモリからサポート特徴を検索してビデオオブジェクトセグメンテーション(VOS)を行うが、一部のピクセルがメモリに対応しない(すなわち、未見)ために、必然的にそのセグメンテーション性能が制限されることがある。本論文では、2ストリームネットワーク(Two-Stream Network: TSN)を提案する。本論文では、2ストリームネットワーク(TSN)を提案する。TSNは、(i)画素レベルメモリを持つ画素ストリームを持ち、画素レベルメモリの検索に基づいて、見た画素をセグメント化する。(ii) 未視聴画素のためのインスタンスストリーム。ここでは、ターゲットインスタンスの特徴を条件とした動的セグメンテーションヘッドにより、インスタンスの全体的な理解を得ることができる。(iii) ルーティングマップを生成する画素分割モジュールで、2つのストリームの出力埋め込みが融合される。コンパクトなインスタンスストリームは、未知のピクセルのセグメンテーション精度を効果的に向上させ、適応的なルーティングマップを用いた2つのストリームの融合は、全体の性能向上につながる。広範な実験を通じて、提案するTSNの有効性を実証し、YouTube-VOS 2018で86.1%、DAVIS-2017の検証分割で87.5%という最先端の性能も報告する。
要約(オリジナル)
Existing matching-based approaches perform video object segmentation (VOS) via retrieving support features from a pixel-level memory, while some pixels may suffer from lack of correspondence in the memory (i.e., unseen), which inevitably limits their segmentation performance. In this paper, we present a Two-Stream Network (TSN). Our TSN includes (i) a pixel stream with a conventional pixel-level memory, to segment the seen pixels based on their pixellevel memory retrieval. (ii) an instance stream for the unseen pixels, where a holistic understanding of the instance is obtained with dynamic segmentation heads conditioned on the features of the target instance. (iii) a pixel division module generating a routing map, with which output embeddings of the two streams are fused together. The compact instance stream effectively improves the segmentation accuracy of the unseen pixels, while fusing two streams with the adaptive routing map leads to an overall performance boost. Through extensive experiments, we demonstrate the effectiveness of our proposed TSN, and we also report state-of-the-art performance of 86.1% on YouTube-VOS 2018 and 87.5% on the DAVIS-2017 validation split.
arxiv情報
| 著者 | Hannan Lu,Zhi Tian,Lirong Yang,Haibing Ren,Wangmeng Zuo | 
| 発行日 | 2022-08-08 10:22:42+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
