READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation

要約

我々は、制約のないビデオを処理するように設計された半自動ビデオ オブジェクト セグメンテーション (sVOS) メソッドのモジュール式フレームワークである READMem (Robust Embedding Association for a Diverse Memory) を紹介します。
現在の sVOS は通常、拡張し続けるメモリにビデオ フレームを集約し、長期的なアプリケーションには大量のハードウェア リソースを必要とします。
メモリ要件を軽減し、(隣接するフレームの情報によって引き起こされる) オブジェクトの近くの重複を防ぐために、以前の方法では、保存に適格なフレームの頻度を制御するハイパーパラメータが導入されています。
このパラメータは、具体的なビデオのプロパティ (外観の変化の速さやビデオの長さなど) に応じて調整する必要があり、一般化することはできません。
代わりに、メモリ内容の多様性が高まる場合にのみ、メモリへの新しいフレームの埋め込みを統合します。
さらに、更新プロセス中にメモリに保存された埋め込みとクエリ埋め込みとの堅牢な関連付けを提案します。
私たちのアプローチは冗長なデータの蓄積を回避し、その代わりにメモリ サイズを制限し、長いビデオでの極端なメモリ要求を防ぐことができます。
READMem を使用して、一般的な sVOS ベースラインを拡張します。以前は、長いビデオではパフォーマンスが制限されていました。
私たちのアプローチは、長時間ビデオ データセット (LV1) で競争力のある結果を達成しながら、短いシーケンスでのパフォーマンスを妨げません。
私たちのコードは公開されています。

要約(オリジナル)

We present READMem (Robust Embedding Association for a Diverse Memory), a modular framework for semi-automatic video object segmentation (sVOS) methods designed to handle unconstrained videos. Contemporary sVOS works typically aggregate video frames in an ever-expanding memory, demanding high hardware resources for long-term applications. To mitigate memory requirements and prevent near object duplicates (caused by information of adjacent frames), previous methods introduce a hyper-parameter that controls the frequency of frames eligible to be stored. This parameter has to be adjusted according to concrete video properties (such as rapidity of appearance changes and video length) and does not generalize well. Instead, we integrate the embedding of a new frame into the memory only if it increases the diversity of the memory content. Furthermore, we propose a robust association of the embeddings stored in the memory with query embeddings during the update process. Our approach avoids the accumulation of redundant data, allowing us in return, to restrict the memory size and prevent extreme memory demands in long videos. We extend popular sVOS baselines with READMem, which previously showed limited performance on long videos. Our approach achieves competitive results on the Long-time Video dataset (LV1) while not hindering performance on short sequences. Our code is publicly available.

arxiv情報

著者 Stéphane Vujasinović,Sebastian Bullinger,Stefan Becker,Norbert Scherer-Negenborn,Michael Arens,Rainer Stiefelhagen
発行日 2023-09-25 13:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク