Benchmarking self-supervised video representation learning

要約

自己教師あり学習は、特にラベル付けにコストがかかるビデオ領域において、ラベルフリーのモデルの事前トレーニングに効果的な方法です。
ビデオ分野の既存の自己教師付き作品は、その有効性を実証するためにさまざまな実験設定を使用していますが、標準的なベンチマークがないため、アプローチ間の比較が困難になります。
この作業では、まず、同じ基準で既存のアプローチを比較できるベンチマークを提供します。
次に、ビデオにとって重要な自己教師あり学習の 5 つの異なる側面を研究します。
1) データセットのサイズ、2) 複雑さ、3) データの分布、4) データのノイズ、5) 特徴分析。
この研究を促進するために、私たちは 7 つの異なる方法と 7 つの異なるネットワーク アーキテクチャに焦点を当て、2 つの異なる下流タスクの評価とともに 5 つの異なるデータセットに対して一連の広範な実験を実行しました。
この研究から、事前トレーニングとターゲットのデータセット、口実タスク、モデル アーキテクチャなどのさまざまな特性にわたる興味深い洞察をいくつか紹介します。
さらに、これらの洞察の一部を実際のテストに適用し、限られた量のトレーニング データを必要とし、10 倍の事前トレーニング データを使用する既存の最先端のアプローチを上回るアプローチを提案します。
私たちは、この研究により、研究者がビデオ表現学習における自己教師あり口実タスクをより深く理解するための道が開かれると信じています。

要約(オリジナル)

Self-supervised learning is an effective way for label-free model pre-training, especially in the video domain where labeling is expensive. Existing self-supervised works in the video domain use varying experimental setups to demonstrate their effectiveness and comparison across approaches becomes challenging with no standard benchmark. In this work, we first provide a benchmark that enables a comparison of existing approaches on the same ground. Next, we study five different aspects of self-supervised learning important for videos; 1) dataset size, 2) complexity, 3) data distribution, 4) data noise, and, 5)feature analysis. To facilitate this study, we focus on seven different methods along with seven different network architectures and perform an extensive set of experiments on 5 different datasets with an evaluation of two different downstream tasks. We present several interesting insights from this study which span across different properties of pretraining and target datasets, pretext-tasks, and model architectures among others. We further put some of these insights to the real test and propose an approach that requires a limited amount of training data and outperforms existing state-of-the-art approaches which use 10x pretraining data. We believe this work will pave the way for researchers to a better understanding of self-supervised pretext tasks in video representation learning.

arxiv情報

著者 Akash Kumar,Ashlesha Kumar,Vibhav Vineet,Yogesh Singh Rawat
発行日 2023-06-09 16:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク