Robust and Efficient Memory Network for Video Object Segmentation

要約

タイトル:ビデオオブジェクトセグメンテーションのための堅牢かつ効率的なメモリネットワーク

要約:

– 本論文では、セミ・スーパーバイズドのビデオオブジェクトセグメンテーション(VOS)の研究のための堅牢かつ効率的なメモリネットワーク(REMN)を提案しています。
– 近年のメモリベースの手法では、クエリとメモリの間で非局所的なピクセルのマッチングを行うことで、優れたVOSの性能が得られるようになりましたが、2つの制限があります。
– 1つ目の制限は、非局所的なマッチングが背景の邪魔なオブジェクトを誤ってセグメンテーションする可能性があることです。これらに対処するため、前のマスクで前景物の特徴を強化するローカルアテンションメカニズムを導入しています。
– 2つ目の制限は、時系列の冗長性が高いメモリ特徴量が大量の計算リソースを消費することです。これに対処するため、前景物の変化に応じてメモリ特徴を更新するかどうかを自動的に決定し、軽量で微分可能なソフトモジュレーションゲートを使用して、いくつかのメモリ特徴量を時間次元で削除する動的メモリバンクを採用しています。
– 実験結果は、REMNがDAVIS 2017で$\mathcal{J\&F}$スコア86.3%、YouTube-VOS 2018で$\mathcal{G}$ mean 85.5%を達成し、高速な推論速度(25+ FPS)で比較的少ない計算リソースを使用することが示されています。

要約(オリジナル)

This paper proposes a Robust and Efficient Memory Network, referred to as REMN, for studying semi-supervised video object segmentation (VOS). Memory-based methods have recently achieved outstanding VOS performance by performing non-local pixel-wise matching between the query and memory. However, these methods have two limitations. 1) Non-local matching could cause distractor objects in the background to be incorrectly segmented. 2) Memory features with high temporal redundancy consume significant computing resources. For limitation 1, we introduce a local attention mechanism that tackles the background distraction by enhancing the features of foreground objects with the previous mask. For limitation 2, we first adaptively decide whether to update the memory features depending on the variation of foreground objects to reduce temporal redundancy. Second, we employ a dynamic memory bank, which uses a lightweight and differentiable soft modulation gate to decide how many memory features need to be removed in the temporal dimension. Experiments demonstrate that our REMN achieves state-of-the-art results on DAVIS 2017, with a $\mathcal{J\&F}$ score of 86.3% and on YouTube-VOS 2018, with a $\mathcal{G}$ over mean of 85.5%. Furthermore, our network shows a high inference speed of 25+ FPS and uses relatively few computing resources.

arxiv情報

著者 Yadang Chen,Dingwei Zhang,Zhi-xin Yang,Enhua Wu
発行日 2023-04-24 06:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク