Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization

要約

動きに焦点を当てたビデオ表現を学習するための自己教師あり方法を提案します。
既存のアプローチは、高い空間的類似性を維持する一時的に拡張されたビデオ間の距離を最小限に抑えます。
代わりに、同一のローカル モーション ダイナミクスを備えたビデオ間の類似性を学習することを提案しますが、それ以外の場合は外観が異なります。
これは、チューブレットと呼ばれる合成モーション軌跡をビデオに追加することによって行います。
さまざまなチューブレットの動きをシミュレートし、スケーリングや回転などの変換を適用することで、事前トレーニング データに存在するものを超えた動きパターンを導入します。
これにより、非常にデータ効率の高いビデオ表現を学習できます。事前トレーニング ビデオの 25% のみを使用する場合、私たちのアプローチはパフォーマンスを維持します。
10 の多様なダウンストリーム設定での実験は、競争力のあるパフォーマンスと、新しいドメインおよびきめの細かいアクションへの一般化可能性を示しています。

要約(オリジナル)

We propose a self-supervised method for learning motion-focused video representations. Existing approaches minimize distances between temporally augmented videos, which maintain high spatial similarity. We instead propose to learn similarities between videos with identical local motion dynamics but an otherwise different appearance. We do so by adding synthetic motion trajectories to videos which we refer to as tubelets. By simulating different tubelet motions and applying transformations, such as scaling and rotation, we introduce motion patterns beyond what is present in the pretraining data. This allows us to learn a video representation that is remarkably data-efficient: our approach maintains performance when using only 25% of the pretraining videos. Experiments on 10 diverse downstream settings demonstrate our competitive performance and generalizability to new domains and fine-grained actions.

arxiv情報

著者 Fida Mohammad Thoker,Hazel Doughty,Cees Snoek
発行日 2023-03-20 10:31:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク