要約
マッチングベースの方法、特に時空間メモリに基づく方法は、半教師付きビデオ オブジェクト セグメンテーション (VOS) の他のソリューションよりもはるかに優れています。
ただし、継続的に成長する冗長なテンプレート機能は、非効率的な推論につながります。
これを軽減するために、メモリ機能の冗長性を大幅に削減する新しい順次加重期待値最大化 (SWEM) ネットワークを提案します。
フレーム間の機能冗長性のみを検出する以前の方法とは異なり、SWEM は、順次加重 EM アルゴリズムを活用することにより、フレーム内およびフレーム間の類似機能の両方をマージします。
さらに、フレーム機能の適応重みにより、SWEM にハード サンプルを表現する柔軟性が与えられ、テンプレートの識別が改善されます。
さらに、提案された方法は、VOSシステムの安定した推論の複雑さを保証するメモリ内の一定数のテンプレート機能を維持します。
一般的に使用される DAVIS および YouTube-VOS データセットでの広範な実験により、SWEM の高効率 (36 FPS) と高性能 (DAVIS 2017 検証データセットで 84.3\% $\mathcal{J}\&\mathcal{F}$) が検証されます。
コードは https://github.com/lmm077/SWEM で入手できます。
要約(オリジナル)
Matching-based methods, especially those based on space-time memory, are significantly ahead of other solutions in semi-supervised video object segmentation (VOS). However, continuously growing and redundant template features lead to an inefficient inference. To alleviate this, we propose a novel Sequential Weighted Expectation-Maximization (SWEM) network to greatly reduce the redundancy of memory features. Different from the previous methods which only detect feature redundancy between frames, SWEM merges both intra-frame and inter-frame similar features by leveraging the sequential weighted EM algorithm. Further, adaptive weights for frame features endow SWEM with the flexibility to represent hard samples, improving the discrimination of templates. Besides, the proposed method maintains a fixed number of template features in memory, which ensures the stable inference complexity of the VOS system. Extensive experiments on commonly used DAVIS and YouTube-VOS datasets verify the high efficiency (36 FPS) and high performance (84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 validation dataset) of SWEM. Code is available at: https://github.com/lmm077/SWEM.
arxiv情報
著者 | Zhihui Lin,Tianyu Yang,Maomao Li,Ziyu Wang,Chun Yuan,Wenhao Jiang,Wei Liu |
発行日 | 2022-08-22 08:03:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google