Just a Glimpse: Rethinking Temporal Information for Video Continual Learning

要約

クラス増分学習は、実際のアプリケーション シナリオに非常に似ているため、継続学習の研究にとって最も重要な設定の 1 つです。
メモリ サイズに制限があると、クラス/タスクの数が増加するにつれて、壊滅的な忘却が発生します。
ビデオ データには多数のフレームが含まれており、再生メモリへの負担が大きくなるため、ビデオ ドメインでの継続学習の研究にはさらに多くの課題が生じます。
現在の一般的な方法は、ビデオ ストリームからフレームをサブサンプリングし、再生メモリに保存することです。
この論文では、個別/単一フレームに基づいた効果的なビデオ継続学習のための新しい再生メカニズム SMILE を提案します。
広範な実験を通じて、極度のメモリ制約の下では、ビデオの多様性が時間情報よりも重要な役割を果たすことを示しました。
したがって、私たちの方法は、多数の一意のビデオを表す少数のフレームから学習することに重点を置いています。
Kinetics、UCF101、ActivityNet という 3 つの代表的なビデオ データセットにおいて、提案された手法は最先端のパフォーマンスを達成し、以前の最先端のパフォーマンスを最大 21.49% 上回りました。

要約(オリジナル)

Class-incremental learning is one of the most important settings for the study of Continual Learning, as it closely resembles real-world application scenarios. With constrained memory sizes, catastrophic forgetting arises as the number of classes/tasks increases. Studying continual learning in the video domain poses even more challenges, as video data contains a large number of frames, which places a higher burden on the replay memory. The current common practice is to sub-sample frames from the video stream and store them in the replay memory. In this paper, we propose SMILE a novel replay mechanism for effective video continual learning based on individual/single frames. Through extensive experimentation, we show that under extreme memory constraints, video diversity plays a more significant role than temporal information. Therefore, our method focuses on learning from a small number of frames that represent a large number of unique videos. On three representative video datasets, Kinetics, UCF101, and ActivityNet, the proposed method achieves state-of-the-art performance, outperforming the previous state-of-the-art by up to 21.49%.

arxiv情報

著者 Lama Alssum,Juan Leon Alcazar,Merey Ramazanova,Chen Zhao,Bernard Ghanem
発行日 2023-06-28 12:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク