RMem: Restricted Memory Banks Improve Video Object Segmentation

要約

最近のビデオ オブジェクト セグメンテーション (VOS) ベンチマークが困難なシナリオに進化しているため、メモリ バンクのサイズを制限するという、単純だが見落とされている戦略を再考します。
これは、広範な履歴情報を収容するためにメモリ バンクを拡張する一般的な慣行とは異なります。
私たちの特別に設計された「メモリ解読」研究は、そのような戦略を支える極めて重要な洞察を提供します。メモリバンクの拡張は一見有益に見えますが、実際には冗長な情報による混乱により、VOS モジュールが関連する機能を解読する難易度を高めます。
メモリ バンクを限られた数の必須フレームに制限することで、VOS の精度が大幅に向上します。
このプロセスでは、フレームの重要性と新鮮さのバランスをとり、限られた容量内で有益なメモリ バンクを維持します。
さらに、メモリバンクを制限すると、連続拡張と比較してメモリ長におけるトレーニング推論の不一致が減少します。
これにより、時間的推論における新たな機会が促進され、これまで見落とされていた「時間的位置の埋め込み」を導入できるようになります。
最後に、私たちの洞察は「RMem」 (「R」は制限付きの意味) に具体化されています。これは、困難な VOS シナリオに優れ、オブジェクトの状態変更 (VOST データセット上) と長いビデオに対する新しい最先端技術を確立する、シンプルかつ効果的な VOS 変更です。
(ロング ビデオ データセット上)。
コードとデモは https://restricted-memory.github.io/ で入手できます。

要約(オリジナル)

With recent video object segmentation (VOS) benchmarks evolving to challenging scenarios, we revisit a simple but overlooked strategy: restricting the size of memory banks. This diverges from the prevalent practice of expanding memory banks to accommodate extensive historical information. Our specially designed ‘memory deciphering’ study offers a pivotal insight underpinning such a strategy: expanding memory banks, while seemingly beneficial, actually increases the difficulty for VOS modules to decode relevant features due to the confusion from redundant information. By restricting memory banks to a limited number of essential frames, we achieve a notable improvement in VOS accuracy. This process balances the importance and freshness of frames to maintain an informative memory bank within a bounded capacity. Additionally, restricted memory banks reduce the training-inference discrepancy in memory lengths compared with continuous expansion. This fosters new opportunities in temporal reasoning and enables us to introduce the previously overlooked ‘temporal positional embedding.’ Finally, our insights are embodied in ‘RMem’ (‘R’ for restricted), a simple yet effective VOS modification that excels at challenging VOS scenarios and establishes new state of the art for object state changes (on the VOST dataset) and long videos (on the Long Videos dataset). Our code and demo are available at https://restricted-memory.github.io/.

arxiv情報

著者 Junbao Zhou,Ziqi Pang,Yu-Xiong Wang
発行日 2024-06-12 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク