要約
人間は継続的なビデオ ストリームを視聴し、最小限の監視で、以前に学習した経験を保持しながら、新しい知識の継続的な取得と伝達を容易に実行できます。
対照的に、既存の継続学習 (CL) 方法では、ビデオ ストリーム内の個々のフレームから効果的に学習するために、完全に注釈が付けられたラベルが必要です。
ここでは、ストリーミング ビデオにおけるより現実的で困難な問題 $\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD) を検討します。
我々はプラグアンドプレイモジュールであるEfficient-CLSを提案します。これは、データアノテーションのコストとモデルの再トレーニング時間を削減しながら、ビデオストリーム内の物体検出のための既存の継続学習器に簡単に挿入して改善することができます。
私たちの方法が、現実世界のビデオをストリーミングするための 2 つの困難な CL ベンチマークにおいて、すべての監視レベルにわたって最小限の忘れで大幅な改善を達成したことを示します。
注目すべきことに、わずか 25% の注釈付きビデオ フレームでも、私たちの方法は、すべてのビデオ フレームに 100% の注釈を付けてトレーニングされた基本 CL 学習器よりも優れたパフォーマンスを発揮します。
データとソース コードは https://github.com/showlab/Efficient-CLS で公開されます。
要約(オリジナル)
Humans can watch a continuous video stream and effortlessly perform continual acquisition and transfer of new knowledge with minimal supervision yet retaining previously learnt experiences. In contrast, existing continual learning (CL) methods require fully annotated labels to effectively learn from individual frames in a video stream. Here, we examine a more realistic and challenging problem$\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD) in streaming video. We propose a plug-and-play module, Efficient-CLS, that can be easily inserted into and improve existing continual learners for object detection in video streams with reduced data annotation costs and model retraining time. We show that our method has achieved significant improvement with minimal forgetting across all supervision levels on two challenging CL benchmarks for streaming real-world videos. Remarkably, with only 25% annotated video frames, our method still outperforms the base CL learners, which are trained with 100% annotations on all video frames. The data and source code will be publicly available at https://github.com/showlab/Efficient-CLS.
arxiv情報
著者 | Jay Zhangjie Wu,David Junhao Zhang,Wynne Hsu,Mengmi Zhang,Mike Zheng Shou |
発行日 | 2023-08-23 15:51:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google