Memory-Efficient Continual Learning Object Segmentation for Long Video

要約

最近の最先端の半教師ありビデオ オブジェクト セグメンテーション (VOS) 手法では、前のフレームからの情報を現在のフレームのセグメント化に使用する場合、ターゲット オブジェクトのセグメント化精度が大幅に向上しました。
特に、このようなメモリベースのアプローチは、モデルが外観の変化 (表現ドリフト) やオクルージョンをより効果的に処理するのに役立ちます。
理想的には、オンライン VOS メソッドでパフォーマンスを最大化するには、先行するフレーム (または抽出された情報) のすべてまたはほとんどをメモリに保存し、後のフレームでのオンライン学習に使用する必要があります。
このような解決策は、必要なメモリ サイズが際限なく増大するため、長いビデオには現実的ではありません。また、メモリが限られており、ビデオ全体でターゲット オブジェクトの表現ドリフトが繰り返される場合、このような方法は失敗する可能性があります。
長いビデオのモデリング精度と一般化を向上させながら、オンライン VOS メソッドのメモリ要件を削減する 2 つの新しい手法を提案します。
以前に学習した知識を保存する継続的学習技術の成功を動機として、ここでは、メモリが限られているオンライン VOS のパフォーマンスを向上させるゲート型レギュラライザー継続的学習 (GRCL) と、再構成ベースのメモリ選択継続的学習 (
RMSCL) により、オンライン VOS メソッドがメモリに保存された情報を効率的に活用できるようになります。
また、提案された 2 つの方法をハイブリッドに組み合わせた場合のパフォーマンスも分析します。
実験結果は、提案された方法により、DAVIS16、DAVIS17、YouTube-VOS18 などの短いビデオ データセットで同等のパフォーマンスを維持しながら、長いビデオ データセットでの堅牢性が向上し、オンライン VOS モデルのパフォーマンスを 8% 以上改善できることを示しています。

要約(オリジナル)

Recent state-of-the-art semi-supervised Video Object Segmentation (VOS) methods have shown significant improvements in target object segmentation accuracy when information from preceding frames is used in segmenting the current frame. In particular, such memory-based approaches can help a model to more effectively handle appearance changes (representation drift) or occlusions. Ideally, for maximum performance, Online VOS methods would need all or most of the preceding frames (or their extracted information) to be stored in memory and be used for online learning in later frames. Such a solution is not feasible for long videos, as the required memory size grows without bound, and such methods can fail when memory is limited and a target object experiences repeated representation drifts throughout a video. We propose two novel techniques to reduce the memory requirement of Online VOS methods while improving modeling accuracy and generalization on long videos. Motivated by the success of continual learning techniques in preserving previously-learned knowledge, here we propose Gated-Regularizer Continual Learning (GRCL), which improves the performance of any Online VOS subject to limited memory, and a Reconstruction-based Memory Selection Continual Learning (RMSCL), which empowers Online VOS methods to efficiently benefit from stored information in memory. We also analyze the performance of a hybrid combination of the two proposed methods. Experimental results show that the proposed methods are able to improve the performance of Online VOS models by more than 8%, with improved robustness on long-video datasets while maintaining comparable performance on short-video datasets such as DAVIS16, DAVIS17, and YouTube-VOS18.

arxiv情報

著者 Amir Nazemi,Mohammad Javad Shafiee,Zahra Gharaee,Paul Fieguth
発行日 2024-02-14 17:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク