XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

要約

Atkinson-Shiffrinメモリモデルに触発された統合機能メモリストアを備えた長いビデオ用のビデオオブジェクトセグメンテーションアーキテクチャであるXMemを紹介します。
ビデオオブジェクトのセグメンテーションに関する以前の作業では、通常、1種類の機能メモリのみを使用します。
1分を超えるビデオの場合、単一機能のメモリモデルがメモリ消費と精度を緊密にリンクします。
対照的に、Atkinson-Shiffrinモデルに従って、複数の独立しているが深く接続された機能メモリストアを組み込んだアーキテクチャを開発します。迅速に更新される感覚メモリ、高解像度のワーキングメモリ、コンパクトで持続的な長期メモリです。
重要なのは、アクティブに使用されているワーキングメモリ要素を長期メモリに定期的に統合するメモリ増強アルゴリズムを開発することです。これにより、メモリの爆発的な増加を回避し、長期予測のパフォーマンスの低下を最小限に抑えます。
XMemは、新しいメモリ読み取りメカニズムと組み合わせることで、ロングビデオデータセットの最先端のパフォーマンスを大幅に上回り、ショートビデオの最先端の方法(ロングビデオでは機能しません)と同等です。
データセット。
コードはhttps://hkchengrex.github.io/XMemで入手できます

要約(オリジナル)

We present XMem, a video object segmentation architecture for long videos with unified feature memory stores inspired by the Atkinson-Shiffrin memory model. Prior work on video object segmentation typically only uses one type of feature memory. For videos longer than a minute, a single feature memory model tightly links memory consumption and accuracy. In contrast, following the Atkinson-Shiffrin model, we develop an architecture that incorporates multiple independent yet deeply-connected feature memory stores: a rapidly updated sensory memory, a high-resolution working memory, and a compact thus sustained long-term memory. Crucially, we develop a memory potentiation algorithm that routinely consolidates actively used working memory elements into the long-term memory, which avoids memory explosion and minimizes performance decay for long-term prediction. Combined with a new memory reading mechanism, XMem greatly exceeds state-of-the-art performance on long-video datasets while being on par with state-of-the-art methods (that do not work on long videos) on short-video datasets. Code is available at https://hkchengrex.github.io/XMem

arxiv情報

著者 Ho Kei Cheng,Alexander G. Schwing
発行日 2022-07-14 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク