Semi-supervised Active Learning for Video Action Detection

要約

本研究では、ビデオアクション検出のためのラベル効率学習に焦点を当てる。我々は、ラベル付けされたデータとラベル付けされていないデータの両方を利用する、新しい半教師付き能動学習アプローチを開発する。ビデオアクション検出には、分類とともに時空間定位が必要であり、このことは、能動学習による有益なサンプル選択と半教師付き学習による擬似ラベル生成の両方にいくつかの課題をもたらす。まず、我々はNoiseAugを提案する。NoiseAugは、ビデオアクション検出のための情報量の多いサンプルを効果的に選択する簡単な補強戦略である。次に、ハイパスフィルタリングに基づく新しい手法であるfft-attentionを提案し、動画内の関連する活動領域を強調することで、動画アクション検出におけるSSL用擬似ラベルの効果的な利用を可能にする。提案手法をUCF-101-24、JHMDB-21、Youtube-VOSの3つの異なるベンチマークデータセットで評価する。UCF101-24とJHMDB-21の両データセットにおいて、提案手法は半教師付き学習と弱教師付き学習における先行研究と、いくつかのベースラインアプローチを凌駕した。次に、Youtube-VOSにおける動画オブジェクトセグメンテーションの有効性を示し、動画における他の高密度予測タスクへの汎用性を示す。コードとモデルは以下で公開されています:\https://github.com/AKASH2907/semi-sup-active-learning}。

要約(オリジナル)

In this work, we focus on label efficient learning for video action detection. We develop a novel semi-supervised active learning approach which utilizes both labeled as well as unlabeled data along with informative sample selection for action detection. Video action detection requires spatio-temporal localization along with classification, which poses several challenges for both active learning informative sample selection as well as semi-supervised learning pseudo label generation. First, we propose NoiseAug, a simple augmentation strategy which effectively selects informative samples for video action detection. Next, we propose fft-attention, a novel technique based on high-pass filtering which enables effective utilization of pseudo label for SSL in video action detection by emphasizing on relevant activity region within a video. We evaluate the proposed approach on three different benchmark datasets, UCF-101-24, JHMDB-21, and Youtube-VOS. First, we demonstrate its effectiveness on video action detection where the proposed approach outperforms prior works in semi-supervised and weakly-supervised learning along with several baseline approaches in both UCF101-24 and JHMDB-21. Next, we also show its effectiveness on Youtube-VOS for video object segmentation demonstrating its generalization capability for other dense prediction tasks in videos. The code and models is publicly available at: \url{https://github.com/AKASH2907/semi-sup-active-learning}.

arxiv情報

著者 Ayush Singh,Aayush J Rana,Akash Kumar,Shruti Vyas,Yogesh Singh Rawat
発行日 2024-04-03 15:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク