Spatio-Temporal Crop Aggregation for Video Representation Learning

要約

トレーニング時と推論時の両方で高いスケーラビリティを享受する新しい方法である、ビデオ表現学習用の時空間クロップ集約 (SCALE) を提案します。
私たちのモデルは、事前トレーニングされたバックボーンで抽出されたビデオ クリップ レベルの特徴のセットから学習することにより、長距離ビデオ特徴を構築します。
モデルをトレーニングするために、マスクされたクリップ機能予測で構成される自己教師付き目標を提案します。
ビデオ クリップのランダムなセットを抽出することによって入力にスパース性を適用し、スパース入力のみを再構築することによって損失関数にスパース性を適用します。
さらに、単一のビデオ クリップに適用される事前トレーニング済みのバックボーンの潜在空間で作業することにより、次元削減を使用します。
ビデオ表現は、ビデオ クリップ セットの要約トークンを使用して、個別のビデオ クリップの埋め込みの連結のアンサンブルを取得することによって取得されます。
これらの手法により、私たちの方法はトレーニングが非常に効率的であるだけでなく、転移学習においても非常に効果的になります。
私たちのビデオ表現が、一般的なアクション分類データセットでの線形、非線形、および $k$-NN プロービングにより、最先端のパフォーマンスを生み出すことを示しています。

要約(オリジナル)

We propose Spatio-temporal Crop Aggregation for video representation LEarning (SCALE), a novel method that enjoys high scalability at both training and inference time. Our model builds long-range video features by learning from sets of video clip-level features extracted with a pre-trained backbone. To train the model, we propose a self-supervised objective consisting of masked clip feature prediction. We apply sparsity to both the input, by extracting a random set of video clips, and to the loss function, by only reconstructing the sparse inputs. Moreover, we use dimensionality reduction by working in the latent space of a pre-trained backbone applied to single video clips. The video representation is then obtained by taking the ensemble of the concatenation of embeddings of separate video clips with a video clip set summarization token. These techniques make our method not only extremely efficient to train, but also highly effective in transfer learning. We demonstrate that our video representation yields state-of-the-art performance with linear, non-linear, and $k$-NN probing on common action classification datasets.

arxiv情報

著者 Sepehr Sameni,Simon Jenni,Paolo Favaro
発行日 2022-11-30 14:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク